一、为什么选择 Qwen 系列本地部署?
1.1 Qwen 的核心优势
通义千问(Qwen)是阿里云开源的大语言模型系列,在中文理解、代码生成和推理能力上表现优异。最新发布的 Qwen3.5 系列更是首个原生视觉 - 语言模型家族,支持多模态理解,在 TAU2-Bench 评测中得分 86.7。
介绍在 Mac 环境下使用 Ollama 部署通义千问(Qwen)系列模型,并通过 OpenClaw 搭建本地 AI 助手的完整流程。内容包括硬件选型建议、Ollama 安装与模型拉取、OpenClaw 初始化及与 Ollama 的 API 对接配置。实现了零 Token 成本、数据隐私保护及离线可用能力,支持多模态交互与技能插件扩展。
通义千问(Qwen)是阿里云开源的大语言模型系列,在中文理解、代码生成和推理能力上表现优异。最新发布的 Qwen3.5 系列更是首个原生视觉 - 语言模型家族,支持多模态理解,在 TAU2-Bench 评测中得分 86.7。
| 特性 | Qwen 系列优势 |
|---|---|
| 中文能力 | 原生中文训练,理解和生成远超国外开源模型 |
| 模型规格 | 从 0.6B 到 235B 全覆盖,适配各种硬件 |
| 量化支持 | Ollama 提供多种量化版本(Q4_0/Q8_0 等),内存友好 |
| 上下文长度 | 最高支持 128K-256K token,处理长文档无压力 |
| 多模态能力 | Qwen3.5 支持图像理解,可处理截图、图片等 |
在 Mac 上跑 Qwen,内存(统一内存)是决定性因素。以下是基于实测的硬件建议:
| Mac 内存 | 推荐模型及量化 | 文件大小 | 适用场景 |
|---|---|---|---|
| 8GB | Qwen2.5 7B (Q4_0) / Qwen3 4B (Q4_0) | 4-5GB | 轻量对话、文件整理、基础问答 |
| 16GB | Qwen2.5 7B (Q8_0) / Qwen3.5 9B (Q4_0) | 5-9GB | 复杂推理、代码生成、中等上下文 |
| 24-32GB | Qwen3.5 14B (Q4_0) / 35B (Q4_0) | 8-18GB | 长文本处理、多模态任务、专业应用 |
| 64GB+ | Qwen3 72B (Q4_0) / 235B MoE | 37GB+ | 科研、全场景覆盖 |
小知识:量化版本中,Q4_0 是 4-bit 量化,文件最小、速度最快,适合内存有限的设备;Q8_0 是 8-bit 量化,在速度和精度间取得平衡。
# 使用 Homebrew 安装(推荐)
brew install ollama
# 或从官网下载安装包
# 访问 https://ollama.com/download 下载 macOS 版本
# 启动 Ollama 服务(后台运行)
ollama serve
# 验证安装
ollama --version
# 应显示 0.5.0 或更高
设置开机自启:
# 将 Ollama 添加到登录项
# 系统设置 → 通用 → 登录项 → 点击"+"添加 Ollama
Ollama 支持全系列 Qwen 模型,包括最新的 Qwen2.5 和 Qwen3.5。
# 查看可用 Qwen 模型列表
ollama list | grep qwen
# 下载 Qwen2.5 7B(中文能力强,推荐)
ollama pull qwen2.5:7b-instruct-q4_0 # 约 4.1GB
# 下载 Qwen2.5 14B(需要 16GB+ 内存)
ollama pull qwen2.5:14b-instruct-q4_0 # 约 8.2GB
# 下载 Qwen3.5 9B("小钢炮",平衡之选)
ollama pull qwen3.5:9b-instruct-q4_0 # 约 5.3GB
# 下载 Qwen3.5 35B(需要 24GB+ 内存,支持多模态)
ollama pull qwen3.5:35b-instruct-q4_0 # 约 20GB
# 验证下载
ollama list
模型选择建议:
qwen2.5:7b-instruct-q4_0 或 qwen3.5:9b-instruct-q4_0qwen2.5:14b-instruct-q4_0qwen3.5:35b-instruct-q4_0(需足够内存)# 直接在终端对话
ollama run qwen2.5:7b-instruct-q4_0
# 输入测试问题
>>> 介绍一下通义千问模型的特点
>>> /bye # 退出
# 测试 Ollama 的 OpenAI 兼容 API
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{ "model": "qwen2.5:7b-instruct-q4_0", "messages": [{"role": "user", "content": "你好,请做个自我介绍"}], "stream": false }'
如果返回正常,说明 Ollama 服务已经就绪。
OpenClaw 需要 Node.js 22 或更高版本。
# 1. 检查 Node.js 版本
node --version
# 如果低于 22,需要升级
# 2. 使用 nvm 安装 Node.js 22(推荐)
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.0/install.sh | bash
"$HOME/.nvm/nvm.sh"
nvm install 22
nvm use 22
# 3. 配置 npm 国内镜像(加速安装)
npm config set registry https://registry.npmmirror.com
# 4. 全局安装 OpenClaw
npm install -g openclaw@latest
# 5. 验证安装
openclaw --version
# 应显示 2026.3.x 或更高
# 执行初始化向导
openclaw onboard
按照提示完成基础配置:
| 步骤 | 选项 | 说明 |
|---|---|---|
| 安全提示 | Yes | 确认理解使用风险 |
| Onboarding mode | QuickStart | 快速开始模式 |
| Model/auth provider | Skip for now | 稍后手动配置 Ollama |
| Select channel | Skip for now | 暂不配置消息渠道 |
| Configure skills | No | 后续按需安装 |
# 启动网关服务
openclaw gateway start
# 生成访问令牌(用于 Web 控制台登录)
openclaw token generate
# 复制输出的 token,保存备用
# 访问 Web 控制台
# 浏览器打开 http://127.0.0.1:18789/?token=你的 Token
OpenClaw 通过配置文件 ~/.openclaw/openclaw.json 管理所有设置。我们需要添加 Ollama 作为模型提供商。
# 编辑配置文件
vim ~/.openclaw/openclaw.json
将以下配置内容粘贴进去(注意替换 API Key 占位符):
{"meta":{"lastTouchedVersion":"2026.3.1"},"models":{"mode":"merge","providers":{"ollama":{"baseUrl":"http://localhost:11434/v1","apiKey":"ollama",// Ollama 不需要真实 API Key,但不能为空"api":"openai-completions","models":[{"id":"qwen2.5:7b-instruct-q4_0","name":"Qwen2.5 7B (本地)","reasoning":false,"input":["text"],"contextWindow":32768,"maxTokens":8192},{"id":"qwen3.5:9b-instruct-q4_0","name":"Qwen3.5 9B (本地)","reasoning":false,"input":["text"],"contextWindow":128000,"maxTokens":32768}]}},"ollama/qwen2.5:7b-instruct-q4_0":{"priority":1,"default":true}},"agents":{"defaults":{"model":{"primary":"ollama/qwen2.5:7b-instruct-q4_0"},"models":{"ollama/qwen2.5:7b-instruct-q4_0":{},"ollama/qwen3.5:9b-instruct-q4_0":{}}}},"gateway":{"mode":"local","auth":{"mode":"token","token":"你的 token"// 替换为 openclaw token generate 生成的 token}}}
配置要点:
baseUrl 必须是 http://localhost:11434/v1,这是 Ollama 的 OpenAI 兼容接口地址apiKey 可以任意填写,但不能为空models 数组中列出你下载的所有 Qwen 模型contextWindow 根据模型实际能力填写(Qwen2.5 支持 32K,Qwen3.5 支持 128K)ollama/模型 ID 对象中设置默认模型# 保存文件后,重启 OpenClaw 网关
openclaw gateway restart
# 检查配置是否生效
openclaw models list
# 应该显示已配置的 Qwen 模型,并标注 default
如果你更习惯图形界面,也可以通过 Web 控制台配置:
http://127.0.0.1:18789/?token=你的 Token方法一:Web 控制台对话
方法二:命令行测试
# 进入命令行交互模式
openclaw tui
# 输入测试指令
你用的是哪个模型?
帮我列出当前目录下的文件
方法三:查看 Ollama 模型状态
# 查看当前运行的模型
ollama ps
# 应该显示 qwen2.5:7b-instruct-q4_0 正在运行
你可以在配置文件中添加多个模型,根据需要切换:
"models":{"providers":{"ollama":{"baseUrl":"http://localhost:11434/v1","apiKey":"ollama","models":[{"id":"qwen2.5:7b-instruct-q4_0","name":"Qwen2.5 7B"},{"id":"qwen2.5:14b-instruct-q4_0","name":"Qwen2.5 14B"},{"id":"qwen3.5:9b-instruct-q4_0","name":"Qwen3.5 9B"},{"id":"qwen3.5:35b-instruct-q4_0","name":"Qwen3.5 35B"}]}}}
在对话中可以通过指令切换模型:
切换到 Qwen3.5 35B
用 Qwen2.5 14B 帮我写一段代码
对于偶尔需要的复杂任务,可以配置阿里云百炼 API 作为备用:
"providers":{"ollama":{// 本地 Ollama 配置},"bailian":{"baseUrl":"https://dashscope.aliyuncs.com/compatible-mode/v1","apiKey":"你的阿里云百炼 API Key","api":"openai-completions","models":[{"id":"qwen3.5-plus","name":"Qwen3.5 Plus (云端)"},{"id":"qwen3-coder","name":"Qwen Coder (云端)"}]}}
成本优化策略:
如果你下载了 Qwen3.5 的多模态版本(如 qwen3.5:35b),可以通过以下方式使用图像理解:
// 在模型配置中添加 image 输入支持
{"id":"qwen3.5:35b-instruct-q4_0","name":"Qwen3.5 35B (多模态)","reasoning":false,"input":["text","image"],// 关键:声明支持图像输入"contextWindow":256000,"maxTokens":65536}
使用方式:在对话中上传图片,输入'这张图里有什么?'即可。
1. 确保 Ollama 使用 GPU 加速
M 系列芯片的 GPU 对推理加速明显:
# 查看 Ollama 日志,确认 Metal 是否启用
ollama serve --verbose
# 设置环境变量强制使用 GPU
export OLLAMA_NUM_GPU=999
ollama serve
2. 限制 CPU 核心数(防止影响其他应用)
export OLLAMA_NUM_THREADS=4
# 限制使用 4 个 CPU 核心
ollama serve
3. 减少内存占用
如果内存紧张,可以选择更小的量化版本:
# Q2_K 是更激进的量化,内存占用更低
ollama pull qwen2.5:7b-instruct-q2_k
| 问题 | 现象 | 解决方案 |
|---|---|---|
| 模型未找到 | OpenClaw 提示"model not found" | ollama list 确认模型名称,配置文件中 ID 必须完全匹配 |
| 连接拒绝 | ECONNREFUSED http://localhost:11434/v1 | 确认 Ollama 服务是否运行:ollama ps;重启:ollama serve |
| 响应为空 | 模型返回空内容 | 检查配置中 reasoning 是否为 false,Qwen 不支持 reasoning 模式 |
| 速度慢 | 推理速度低于预期 | 检查是否使用 GPU:ollama ps 查看 Processor 列;关闭其他占用内存的应用 |
| 内存不足 | 模型加载失败 | 换更小的模型或量化版本;使用 ollama stop 模型名 释放内存 |
| 多模态失效 | 上传图片后模型不理解 | 确认模型支持多模态(如 35b 版本);检查配置中 input 是否包含 image |
# Ollama 相关
ollama list # 查看已下载模型
ollama ps # 查看正在运行的模型
ollama stop 模型名 # 停止指定模型
ollama rm 模型名 # 删除模型
# OpenClaw 相关
openclaw status # 查看服务状态
openclaw gateway restart # 重启网关
openclaw models list # 查看可用模型
openclaw logs # 查看日志
# 安装文件管理技能
openclaw plugins install @openclaw/file-manager
# 安装系统控制技能
openclaw plugins install @openclaw/system-ctl
# 安装联网搜索技能(需申请 Exa API Key)
openclaw plugins install exa-search
| 场景 | 指令示例 | 说明 |
|---|---|---|
| 文件整理 | 「把下载文件夹里所有 PDF 按日期归类到子文件夹」 | 自动整理 |
| 代码编写 | 「用 Python 写一个快速排序函数,添加详细注释」 | 代码生成 |
| 内容总结 | 「总结这份周报的核心内容」(上传文件) | 长文本处理 |
| 系统监控 | 「查看当前 CPU 和内存使用情况」 | 调用系统命令 |
| 多模态理解 | 「这张截图里有什么问题?」(上传截图) | Qwen3.5 视觉能力 |
通过 OpenClaw + Ollama + Qwen 的组合,你可以在 Mac 上获得一个完全免费、数据私有、离线可用的强大 AI 助手。
以 16GB Mac 为例:

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online