Ubuntu 25.04私有大模型部署实战：Ollama+DeepSeek+OpenWebUI完全指南

优质文章学习记录

07 Apr 2026 — 5 min read

Ubuntu 25.04私有大模型部署实战：Ollama+DeepSeek+OpenWebUI完全指南

作为一名技术爱好者，我对本地部署大型语言模型充满热情。在Ubuntu 25.04上搭建完整的私有AI环境（Ollama + DeepSeek + OpenWebUI）让我收获颇丰，也踩过不少坑。本文将分享零基础搭建流程、性能调优技巧和实用问题解决方案，助你快速拥有专属AI助手。

前置环境准备

推荐使用Ubuntu 25.04 Server版（最小化安装），配置要求：

CPU：4核及以上（建议Intel i7+/Ryzen 5+）
内存：32GB以上（运行32B模型需要）
显卡：NVIDIA RTX 3060 12GB+（显存越大越好）
存储：至少100GB SSD空间

系统优化建议：

# 禁用自动更新降低系统中断几率sudosed-i's/Update-Package-Lists "1"/Update-Package-Lists "0"/g' /etc/apt/apt.conf.d/10periodic # 调整Swappiness提升内存使用效率echo"vm.swappiness=10"|sudotee /etc/sysctl.d/99-swappiness.conf sudosysctl-p

一、核心组件安装

1. Ollama服务部署

Ollama是本地大模型运行引擎，支持多种开源模型：

# 添加Ollama官方源curl-fsSL https://ollama.com/install.sh |sh# 创建专用系统用户（提高安全性）sudouseradd-r-s /bin/false -m-d /opt/ollama ollama

服务配置文件(/etc/systemd/system/ollama.service)是关键，下面是我优化后的版本：

[Unit] Description=Ollama Service After=network-online.target Requires=network-online.target [Service] ExecStart=/usr/bin/ollama serve User=ollama Group=ollama Restart=on-failure RestartSec=30s StartLimitIntervalSec=60 StartLimitBurst=5 # 环境变量配置 Environment="PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/opt/cuda/bin" Environment="CUDA_VISIBLE_DEVICES=0,1" # 指定使用哪几张显卡 Environment="OLLAMA_SCHED_SPREAD=1" # 多卡负载均衡 Environment="OLLAMA_KEEP_ALIVE=-1" # 模型常驻内存不卸载 Environment="OLLAMA_HOST=0.0.0.0" # 开放远程访问 Environment="OLLAMA_ORIGINS=*" # 允许所有跨域请求 Environment="OLLAMA_MODELS=/data/ollama" # 自定义模型存放路径 # 资源限制（根据硬件调整） MemoryHigh=24G MemoryMax=26G CPUQuota=300% [Install] WantedBy=multi-user.target

启动服务：

sudo systemctl daemon-reload sudo systemctl enable--now ollama

2. DeepSeek模型加载

DeepSeek是一款优秀的中文大模型，本地部署步骤：

# 下载模型（约25GB） ollama pull deepseek-coder:33b # 测试模型运行 ollama run deepseek-coder "用Python写一个快速排序函数"

为提升加载速度，可创建本地模型缓存：

mkdir-p /data/ollama/.ollama/models/blobs ln-s /data/ollama/.ollama/models /usr/share/ollama

3. OpenWebUI可视化界面

使用国内镜像源加速下载：

# 拉取镜像sudodocker pull ghcr.m.daocloud.io/open-webui/open-webui:main # 持久化存储目录准备mkdir-p /data/open-webui/{database,cache}chmod755 /data/open-webui

运行容器（特别注意网络配置）：

docker run -d\-p3000:8080 \--name open-webui \--restart always \ --add-host=host.docker.internal:host-gateway \-v /data/open-webui:/app/backend/data \-eOLLAMA_BASE_URL=http://172.17.0.1:11434 \ ghcr.m.daocloud.io/open-webui/open-webui:main

验证容器连通性：

dockerexec open-webui curl-Is http://172.17.0.1:11434 |head-1# 应返回 "HTTP/1.1 200 OK"

二、性能调优实战

1.GPU资源共享配置

# 安装NVIDIA容器工具包curl-sL https://nvidia.github.io/libnvidia-container/gpgkey \|sudo gpg --dearmor-o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg echo"deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] \ https://nvidia.github.io/libnvidia-container/stable/ubuntu25.04/$(arch) /"\|sudotee /etc/apt/sources.list.d/nvidia-container-toolkit.list sudoapt update &&sudoaptinstall-y nvidia-container-toolkit

修改Docker配置(/etc/docker/daemon.json)：

{"runtimes":{"nvidia":{"path":"/usr/bin/nvidia-container-runtime","runtimeArgs":[]}},"default-runtime":"nvidia"}

2.模型热加载优化

创建自动加载脚本(/usr/local/bin/ollama-autoload)：

#!/bin/bashMODELS=("deepseek-coder:33b""llama3:70b")forMODELin${MODELS[@]};docurl-X POST http://localhost:11434/api/pull -d'{"name": "'$MODEL'"}'done

添加到crontab：

(crontab -l;echo"@reboot /usr/local/bin/ollama-autoload")|crontab -

三、故障排查指南

1. OpenWebUI无法连接Ollama

# 容器内部测试dockerexec-it open-webui ping172.17.0.1 # 检查端口映射sudo ss -tulnp|grep11434# 临时关闭防火墙测试sudo ufw disable

2. 模型加载异常

查看详细日志：

journalctl -u ollama -f-n100

常见解决方案：

检查磁盘空间 df -h /data
验证模型完整性 ollama ls
调整显存分配（在小型卡上使用较小模型）

3. CUDA内存溢出

编辑~/.ollama/config.json：

{"num_gpu":1,"num_thread":6,"max_vram":10000// MB为单位}

四、安全加固建议

添加访问认证：

docker run ... -eOPENWEBUI_SECRET_KEY=YourStrongKey ...

配置HTTPS：

# 使用Let's Encrypt证书docker run -d\-p443:8080 \-v /etc/letsencrypt:/etc/letsencrypt \-eOPENWEBUI_SECURE_COOKIES=true \...其他参数...

五、实际效果展示

完成部署后，浏览器访问 http://your-server-ip:3000 即可使用：

支持多会话管理
提供模型切换面板
中文问答响应速度约5-8 tokens/秒（RTX 4090）
本地运行API支持：

curl http://localhost:11434/api/generate -d'{ "model": "deepseek-coder:33b", "prompt": "解释量子纠缠现象", "stream": false }'

六、总结与建议

通过本方案部署的私有AI环境具有:

高性价比：完全本地运行，无API调用费用
隐私安全：敏感数据不出内网
灵活扩展：支持200+ HuggingFace模型

系统监控建议：

使用nvtop监控GPU状态
配置Prometheus+Granfa监控服务健康度
设置日志轮转防止磁盘写满

经过一周的稳定运行测试，这套环境成功应对了日常开发辅助、技术文档撰写和编程问题解决等场景，是值得投入的生产力工具。期待你也成功部署属于自己的AI助手！

“一天写完毕业论文？”：盘点2026年最炸裂的AI写作神器

“一天写完毕业论文” 在 2026 年已不再是天方夜谭。以下是 2026 年最炸裂、实测能大幅提速的 AI 论文写作神器，覆盖全流程生成、文献处理、降重润色、格式排版四大核心场景，帮你高效搞定毕业论文。一、全流程王者：一站式搞定论文全链路（一天定稿首选）这类工具覆盖从选题、开题、初稿、文献、降重到格式排版、答辩 PPT 的全流程，是赶 Deadline 的终极救星。 1. PaperRed（中文论文全流程首选，4.8 星） * 核心能力：选题→大纲→初稿→文献→查重→降重一站式；对接知网 / 万方，自动生成真实可溯源参考文献（GB/T 7714）；AIGC

【模型手术室】第四篇：全流程实战 —— 使用 LLaMA-Factory 开启你的第一个微调任务

专栏进度：04 / 10 (微调实战专题) 很多初学者卡在环境配置和复杂的 torch.train 逻辑上。LLaMA-Factory 的核心优势在于它集成了几乎所有主流国产模型（DeepSeek, Qwen, Yi）和海外模型（Llama 3, Mistral），并且原生支持 Gradio 可视化面板，让你在网页上点点鼠标就能“炼丹”。一、环境搭建：打造你的“炼丹炉” 为了保证训练不因版本冲突而崩溃，建议使用 Conda 进行物理隔离。 Bash 1. 克隆项目 git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory 2. 安装核心依赖 (针对 CUDA 12.

亲测Z-Image-Turbo：8步出图、16G显卡可用，AI绘画效果惊艳实录

亲测Z-Image-Turbo：8步出图、16G显卡可用，AI绘画效果惊艳实录 1. 这不是又一个“快一点”的模型，而是真正能用的生产力工具你有没有过这样的体验：打开一个AI绘图工具，输入提示词，满怀期待点下生成——然后盯着进度条数秒、十秒、甚至半分钟……最后出来的图，要么手多一只，要么建筑歪斜，要么文字糊成一团？ Z-Image-Turbo不是这样。我用它在一台RTX 4080（16GB显存）的机器上实测：从点击生成到图片保存完成，平均耗时2.3秒；生成过程仅需8次迭代（NFEs），不是“8步”噱头，是真实可验证的推理步数；输出图像分辨率达1024×1024，细节扎实，光影自然，中英文文字渲染清晰可读——比如“西安大雁塔”四个汉字，一笔一划完整嵌入夜景画面，不扭曲、不重影、不漏笔。这不是实验室里的参数游戏，而是一个你今天装好就能立刻投入日常创作的工具。它不挑硬件，不卡流程，

QtCreator配置AI辅助编程插件github copilot保姆级教程

文章目录 * 概要 * 配置流程概要 Free版‌免费使用，每月限额 2000 次代码补全 + 50 次聊天交互‌集成于 VS Code，支持跨文件编辑、终端协助及自定义指令‌ ‌ Pro版‌‌个人用户‌：10 美元/月或 100 美元/年‌ ‌特殊群体‌：学生/教师/热门开源维护者可免费使用 Pro 版‌ ‌ Business版‌19 美元/月/用户，按月计费‌面向组织或企业中的团队订阅‌ ‌ Enterprise版‌39 美元/月/用户，按月计费‌企业可按需为不同组织分配 Business 或 Enterprise 订阅‌ 官方地址

Ubuntu 25.04私有大模型部署实战：Ollama+DeepSeek+OpenWebUI完全指南

前置环境准备

一、核心组件安装

1. Ollama服务部署

2. DeepSeek模型加载

3. OpenWebUI可视化界面

二、性能调优实战

1.GPU资源共享配置

2.模型热加载优化

三、故障排查指南

1. OpenWebUI无法连接Ollama

2. 模型加载异常

3. CUDA内存溢出

四、安全加固建议

五、实际效果展示

六、总结与建议

Read more

“一天写完毕业论文？”：盘点2026年最炸裂的AI写作神器

【模型手术室】第四篇：全流程实战 —— 使用 LLaMA-Factory 开启你的第一个微调任务

亲测Z-Image-Turbo：8步出图、16G显卡可用，AI绘画效果惊艳实录

QtCreator配置AI辅助编程插件github copilot保姆级教程