在Windows电脑上使用Ollama部署本地大模型(部署qwen3.5、使用CherryStudio和AingDesk与大模型交互、解决Ollama中AI大模型只能同时处理一个请求的问题)
文章目录
- 0. 为什么要在本地部署AI大模型
- 1. Ollama
- 2. 下载AI大模型
- 3. 下载与AI大模型交互的软件
- 4. 使用软件与AI大模型进行交互
- 5. 解决ollama中本地大模型只能同时处理一个请求的问题
- 6. 本地部署AI大模型时可能遇到的问题
- 7. 如何停止正在运行的AI大模型
- 8. 参考视频
0. 为什么要在本地部署AI大模型
| 考虑维度 | 实际意义 |
|---|---|
| 数据安全与隐私 | 数据完全在本地闭环处理,无需上传至第三方云端服务器 |
| 响应速度与体验 | 模型推理在本地硬件上直接完成,消除了网络传输延迟 |
| 深度定制与集成 | 拥有模型权重,允许利用私有数据进行微调,并修改底层代码 |
| 成本控制与效益 | 一次性硬件投入后,内部使用边际成本趋近于零,无按Token计费的压力 |
| 内容自主与审查 | 摆脱第三方API不透明的黑盒敏感词过滤机制(AI 大模型输出到一半时突然撤回消息) |
1. Ollama
1.1 Ollama是什么
Ollama 是一个“本地运行大模型”的工具,可以在你的电脑/服务器上下载、运行和管理各种开源大语言模型,并提供统一命令行和 HTTP API,像用本地版的“ChatGPT 服务”一样方便
1.2 下载Ollama
1.2.1 通过Ollama官网下载
下载地址:https://ollama.com/
https://ollama.com/ 

1.2.2 通过GitHub下载
下载地址:https://github.com/ollama/ollama/
https://github.com/ollama/ollama/ 如果无法正常访问 GitHub,可以参考我的另一篇博文:GitHub的使用技巧(加速访问GitHub、查看GitHub的热门项目、查看GitHub推荐的项目、Fork、Issue、快速找到项目的安装包、GitHub的各种快捷键)


1.2.3 通过第三方下载(推荐)
通过第三方下载的 Ollama 可能不是最新版,但不影响我们正常使用,后续我们也可以手动将Ollama升级到最新版
下载地址:https://www.onlinedown.net/soft/10133234.htm
https://www.onlinedown.net/soft/10133234.htm 

1.2.4 通过联想电脑管家下载(推荐)
没想到吧,联想电脑管家还能干这事ψ(*`ー´)ψ
联想电脑管家的下载地址:https://guanjia.lenovo.com.cn/
https://guanjia.lenovo.com.cn/ 
成功安装联想电脑管家后,打开联想应用商店

搜索 Ollama 关键字,点击安装按钮就可以下载了(由于我的电脑上已经安装过 Ollama,所以显示的是打开按钮)
Ollama 
1.3 安装Ollama
双击 OllamaSetup.exe 文件安装 Ollama,一路点击下一步就好了(默认安装在 C 盘,不可更改)


安装成功之后,会自动打开 Ollama 软件

1.4 更新Ollama到最新版
1.4.1 通过Ollama本身更新
在任务栏中鼠标右键 Ollama 的图标,点击 Restart to update 选项

1.4.2 通过联想电脑管家更新
由于我的电脑上的 Ollama 已经是最新版,所以显示的是打开按钮

2. 下载AI大模型
本次演示所使用的电脑的硬件配置如下:
- CPU:Intel® Core™ i5-14600KF
- 内存:32G
- 显卡:NVIDIA GeForce RTX 5060 Ti 16G
2.1 更改AI大模型的保存路径
使用 Ollama 下载大模型时,大模型默认会保存在 C 盘,我们需要更改大模型的保存路径
点击 Ollama 左上角的图标

点击 Settings 选项

更改大模型的保存位置

2.2 Ollama设置界面中各个配置项的含义
以下是使用微信翻译的 Ollama 设置界面

上下文长度越大,大模型能够记住你说过的内容就越多,使用体验也会更好,当然,上下文长度越大,大模型的处理速度和吐字速度也会变慢,可根据机器的硬件配置调整上下文的长度
2.3 下载AI大模型(以qwen3.5:9b为例)
我们在大模型广场找到 qwen3.5:9b 模型,模型广场:https://ollama.com/
https://ollama.com/ 搜索 qwen3.5 关键字

不同参数的 qwen3.5 模型对硬件的要求如下
| 模型名称 (Tag) | 模型文件大小 | 最低显存 (VRAM) (全速运行) | 最低内存 (RAM) (仅CPU运行) | 推荐配置 (含长上下文余量) | RTX 5060 Ti 16G 表现预测 |
|---|---|---|---|---|---|
| qwen3.5:0.8b | 1.0 GB | 2 GB | 4 GB | 8 GB | ⚡️ 极速 (显存占用极低,可多开) |
| qwen3.5:2b | 2.7 GB | 4 GB | 6 GB | 8 GB | ⚡️ 极速 (毫无压力) |
| qwen3.5:4b | 3.4 GB | 6 GB | 8 GB | 12 GB | ⚡️ 极速 (毫无压力) |
| qwen3.5:9b | 6.6 GB | 8 GB | 12 GB | 16 GB | ⚡️ 完美匹配 (首选,速度快且有余量处理长文) |
| qwen3.5:27b | 17 GB | 20 GB | 32 GB | 40 GB+ | 🐢 勉强可用 (显存溢出,部分层走内存,速度中等偏慢) |
| qwen3.5:35b | 24 GB | 28 GB | 48 GB | 64 GB+ | 🐌 较慢 (严重依赖内存,仅适合非实时任务) |
| qwen3.5:122b | 81 GB | 96 GB (多卡) | 128 GB | 140 GB+ | ❌ 无法流畅运行 (需多张专业显卡或纯CPU慢速推理) |
| qwen3.5:cloud | - | 0 GB (需联网) | 4 GB | 8 GB | ☁️ 云端运行 (不消耗本地算力,依赖网速) |
| qwen3.5:397b-cloud | - | 0 GB (需联网) | 4 GB | 8 GB | ☁️ 云端运行 (不消耗本地算力,依赖网速) |
我们下载参数为 9b 的模型

复制 CLI 代码
ollama run qwen3.5:9b 
按下 win + r 快捷键,输入 cmd 指令打开命令行窗口,在命令行窗口中输入我们刚才复制的代码
ollama run qwen3.5:9b 
ollama pull= 只把模型文件下载到硬盘,不启动模型ollama run= 先检查本地有没有模型,没有就自动下载,下载完后立即启动并进入对话界面
2.4 运行指令部署本地大模型
在终端运行 ollama run qwen3.5:9b 指令部署本地大模型
ollama run qwen3.5:9b 如果终端出现 Send a message (/? for help) 提示信息,说明大模型在本地部署成功了
我们可以在终端中与大模型进行交互,第一次提问时大模型的回复速度可能较慢,后面大模型的回复速度会快很多

2.5 修改AI大模型的上下文长度
我们打开 Ollama 的界面,点击 Settings 按钮

即使你的对话没有任何记录,在机器硬件配置有限的情况下,上下文长度变大,大模型的处理速度也会下降
根据大模型的吐字速度灵活调整上下文长度,在机器配置有限的情况下,上下文长度越长,大模型的处理速度(吐字速度)越慢

3. 下载与AI大模型交互的软件
一直在 cmd 命令窗口里面与大模型交互,很不方便,我们可以借助一些软件来实现聊天对话框的效果
3.1 Cherry Studio社区版(个人使用免费,商用需授权)
3.1.1 下载
下载地址:https://www.cherry-ai.com/
https://www.cherry-ai.com/ 

3.1.2 安装
双击 Cherry Studio 安装包,一路点击下一步即可



看到以下界面说明 Cherry Studio 安装成功了

3.2 AingDesk(个人使用和商用均免费)
3.2.1 下载
3.2.1.1 通过GitHub下载
下载地址:https://github.com/aingdesk/AingDesk
https://github.com/aingdesk/AingDesk 如果无法正常访问 GitHub,可以参考我的另一篇博文:GitHub的使用技巧(加速访问GitHub、查看GitHub的热门项目、查看GitHub推荐的项目、Fork、Issue、快速找到项目的安装包、GitHub的各种快捷键)


3.2.1.2 通过腾讯CNB下载
下载地址:https://cnb.cool/aingdesk/AingDesk/-/releases
https://cnb.cool/aingdesk/AingDesk/-/releases 
3.2.2 安装
双击 AingDesk-win-1.2.4-x64.exe 文件,一路点击下一步就可以了



看到以下界面说明 AingDesk 安装成功了

4. 使用软件与AI大模型进行交互
qwen3.5 是一款多模态模型,可以直接理解图片,无需借助 OCR 工具
4.1 使用Ollama与AI大模型进行交互
在 Ollama 中也与 AI 大模型进行交互
选择我们下载好的 qwen3.5:9b 模型


4.2 使用Cherry Studio与AI大模型进行交互
4.2.1 添加本地AI大模型
点击右上角的设置图标

搜索 Ollama 关键字
点击 Ollama 选项,再点击添加按钮

输入模型 ID 后会自动填写模型名称和分组名称
qwen3:4b 

添加成功后点击左上角的首页,再点击某个对话,将对话中的模型切换为 qwen3:4b 模型,切换成功后就可以正常对话了

4.2.2 设置AI大模型上下文的长度
点击对话记录右边的三个小点

将上下文数设置为不限(之所以设置为不限,是因为我们要靠 Ollama 来限制上下文数量,而不是靠 Cherry Studio 来限制上下文数量)

接着我们打开 Ollama 的界面,点击 Settings 按钮

即使你的对话没有任何记录,在机器硬件配置有限的情况下,上下文长度变大,大模型的处理速度也会下降
根据大模型的吐字速度灵活调整上下文长度,在机器配置有限的情况下,上下文长度越长,大模型的处理速度(吐字速度越慢)越慢

4.3 使用AingDesk与AI大模型进行交互
使用本地模型

查看已安装的模型

选择我们安装好的 qwen:3b 模型

在下方的输入框中输入提问内容

5. 解决ollama中本地大模型只能同时处理一个请求的问题
值得注意的是,在最新版本(0.17.7)的 Ollama 中添加 OLLAMA_NUM_PARALLEL 系统环境变量似乎失效了,通过 ollama 部署的本地大模型只能同时处理一个请求
默认情况下,如果同时打开两个聊天窗口,ollama 需要处理完第一个请求之后才能处理第二个请求

5.1 添加OLLAMA_NUM_PARALLEL系统环境变量
值得注意的是,在最新版本(0.17.7)的 Ollama 中添加 OLLAMA_NUM_PARALLEL 系统环境变量似乎失效了,通过 ollama 部署的本地大模型只能同时处理一个请求
我们可以通过添加 OLLAMA_NUM_PARALLEL 系统环境变量来设置 ollama 支持的请求并发数
按下 win + i 快捷键,搜索环境变量关键字,点击编辑系统环境变量

点击环境变量

点击新建

变量名称为 OLLAMA_NUM_PARALLEL,变量的值为并发数
OLLAMA_NUM_PARALLEL 添加完 OLLAMA_NUM_PARALLEL 环境变量后,点击打开的窗口的所有确定按钮,保存更改

5.2 重启ollama验证环境变量是否生效
值得注意的是,在最新版本(0.17.7)的 Ollama 中添加 OLLAMA_NUM_PARALLEL 系统环境变量似乎失效了,通过 ollama 部署的本地大模型只能同时处理一个请求
在任务栏中鼠标右键 Ollama 图标,暂时关闭 Ollama

再次打开 Ollama,测试后发现 Ollama 支持同时处理多个请求了
6. 本地部署AI大模型时可能遇到的问题
6.1 AI大模型的处理速度(吐字速度)十分慢
如果大模型的吐字速度十分慢,大概率是因为上下文长度太长了,在机器硬件配置有限的情况下,可以适当减小上下文的长度
我们打开 Ollama 的界面,点击 Settings 按钮

即使你的对话没有任何记录,在机器硬件配置有限的情况下,上下文长度变大,大模型的处理速度也会下降
根据大模型的吐字速度灵活调整上下文长度,在机器配置有限的情况下,上下文长度越长,大模型的处理速度(吐字速度)越慢

6.2 使用Cherry Studio与AI大模型交互时报错(model requires more system memory)
6.2.1 问题呈现
如果在使用 Cherry Studio 与 AI 大模型交互时报错

点开错误详情后发现相应内容为
“error”: “model requires more system memory (64.3 GiB) than is available (44.2 GiB)”

6.2.2 解决方法
之所以出现这个问题,是因为 Ollama 支持的请求并发数设置得太大了,或者 AI 大模型上下文长度太大了,机器拉不动
要解决这个问题,我们需要调整 Ollama 支持的请求并发数或调整 AI 大模型的上下文长度:
- 调整 AI 大模型的上下文长度:参考本文的 AI大模型的吐字速度十分慢 章节
- 调整 Ollama 支持的请求并发数:参考本文的 解决ollama只能同时处理一个请求的问题 章节
6.3 使用Ollama下载qwen3.5:9b报错(The model you are attempting to pull requires a newer version of Ollama.)
6.3.1 问题呈现

PS C:\Users\NieKeYi> ollama pull qwen3.5:9b
pulling manifest
Error: pull model manifest: 412:
The model you are attempting to pull requires a newer version of Ollama.
Please download the latest version at:
https://ollama.com/download
6.3.2 问题产生的原因
qwen3.5 是通义千问系列非常新的版本(特别是支持 256K 上下文和多模态的新架构),需要较新版本的 Ollama 来解析其模型配置文件(Manifest)
旧版本的 Ollama 版本还“不认识”这个新格式,所以服务器拒绝了请求(HTTP 412 Precondition Failed)
6.3.3 解决方法
更新 Ollama 到最新版,具体可以参考本文的 1.4 更新Ollama到最新版 章节
6.4 使用Cherry Studio与AI大模型交互时报错(qwen3.5:9b-q8_0 does not support thinking)
6.4.1 问题呈现
导入来自魔搭社区的大模型 gguf 文件后,在开启思考模式的情况下与大模型交互,报 qwen3.5:9b-q8_0 does not support thinking 错

6.4.2 错误原因
魔搭社区中的 qwen3.5 大模型对思考模式的支持不是很好,建议关闭思考模式。如果想要使用思考模式,建议使用通过 Ollama 终端下载的 qwen3.5 模型
6.4.3 解决方法
在 CheryStudio 中关闭思考模式

7. 如何停止正在运行的AI大模型
默认情况下,如果 4 分钟内不再向 AI 大模型发送任何请求,Ollama 为了节省资源,会自动把 AI 大模型从内存(显存)中卸载掉,只要一直在跟 AI 大模型对话,这个时间就会一直重置
按下 win + r 快捷键,输入 cmd 指令打开命令行窗口,在命令行窗口中 ollama ps 指令
ollama ps 
| 字段 | 含义 |
|---|---|
| NAME | 当前正在运行的模型名称(这里是 Qwen3 的 4B 版本) |
| ID | 模型实例的唯一标识哈希值,用于区分不同的会话实例 |
| SIZE | 这个模型当前占用的显存(或内存)大小。如果看到 20多 GB,说明模型很大或者被加载到了显存中 |
| PROCESSOR | 显示模型的计算资源分配情况。目前模型正在混合使用 CPU 和 GPU,大约 36% 的负载在 CPU 上,64% 的负载在 GPU 上。这通常是好事,说明你的 GPU 正在承担主要工作 |
| CONTEXT | 上下文窗口大小,即模型能"记住"的最多 Token(词元)数量。32768 表示 32k 的上下文长度 |
| UNTIL | 自动卸载倒计时。这表示如果你在接下来的 4 分钟内不再向这个模型发送任何请求,Ollama 为了节省资源,会自动把它从内存(显存)中卸载掉。只要你在跟它对话,这个时间就会一直重置 |
按下 win + r 快捷键,输入 cmd 指令打开命令行窗口,在命令行窗口中 ollama stop qwen3:4b 指令停止正在运行的 AI 大模型,其中 qwen3:4b 为 AI 大模型的名称
ollama stop qwen3:4b 