周红伟：告别 API 费用！Ollama + OpenClaw 本地 AI 部署全攻略

优质文章学习记录

08 Apr 2026 — 3 min read

🔥 告别 API 费用！Ollama + OpenClaw 本地 AI 部署全攻略

💡 零成本、零门槛、断网也能用的私人 AI 助手，从此数据只属于你自己

🤔 为什么你需要本地 AI？

还在每月花几十美元订阅 ChatGPT Plus？还在担心敏感数据上传到云端？是时候改变了！

通过 Ollama + OpenClaw 这对黄金组合，你可以：

✅ 完全免费 - 不花一分钱，告别 API 账单
✅ 绝对隐私 - 所有数据本地处理，不上传云端
✅ 断网可用 - 飞机、地铁、偏远地区照常使用
✅ 模型自由 - GPT-OSS、Qwen 3、GLM 4.7 随心切换

🎯 一句话：这是你真正拥有的 AI，而不是租来的！

🚀 三步快速上手

第一步：环境准备（5 分钟）

1️⃣ 安装 Git

管理员身份打开 PowerShell，一键安装：

winget install git.git

遇到问题？执行这两行命令解决权限：

Set-ExecutionPolicy RemoteSigned -Scope CurrentUser Set-ExecutionPolicy -Scope Process -ExecutionPolicy Bypass

2️⃣ 安装 Ollama

👉 点击下载 Ollama（支持 Windows/Mac/Linux）

💡 提示：最新版 Ollama 已原生支持 OpenClaw，无需额外配置！

第二步：选择你的专属模型

🏆 官方推荐模型清单

OpenClaw 建议选用 64k+ 上下文 的模型，体验更佳：

模型	特点	适合场景
qwen3-coder	代码能力超强	编程、Debug
glm-4.7	通用能力强	日常对话、写作
glm-4.7-flash	速度极快	实时交互
gpt-oss:20b	平衡之选	本地运行无压力
gpt-oss:120b	性能怪兽	高配电脑首选

📥 下载示例

# 下载 20B 版本（推荐入门） ollama run gpt-oss:20b # 或下载 Qwen Coder（编程首选） ollama run qwen3-coder

第三步：部署 OpenClaw

🖥️ Windows 用户

iwr -useb https://openclaw.ai/install.ps1 | iex

🍎 Mac/Linux 用户

curl -fsSL https://openclaw.ai/install.sh | bash

⚡ 启动服务

# 直接启动 ollama launch openclaw # 或先配置再启动 ollama launch openclaw --config

🎉 看到启动成功的提示？恭喜你，本地 AI 已就绪！

💬 进阶玩法：对接 Telegram 机器人

想用手机随时随地聊天？5 分钟搞定 Telegram 对接：

1. 创建机器人

Telegram 搜索 @BotFather
发送 /newbot
命名机器人（如：MyLocalAI）
设置用户名（必须 bot 结尾，如：mylocalai_bot）
复制 Token（类似：8123...:AAE...）

2. 获取配对码

进入你的机器人，会显示：

Pairing code: DLW7HQ69

3. 执行配对

新打开 PowerShell：

openclaw pairing approve telegram DLW7HQ69

✅ 配对成功！现在可以在 Telegram 里和本地 AI 聊天了！

📋 常用命令速查

场景	命令
启动 OpenClaw	ollama launch openclaw
配置模式	ollama launch openclaw --config
Telegram 配对	openclaw pairing approve telegram <配对码>
重启后启动	ollama launch openclaw

🎊 现在，你可以…

✍️ 写文章 - 本地 AI 帮你头脑风暴、润色文案
💻 写代码 - 接入 Qwen Coder，秒变编程助手
🔒 处理敏感数据 - 财务报表、商业计划，完全离线处理
🌍 随时随地 - 飞机上、地铁里、山区露营，AI 随叫随到

🚦 常见问题

Q: 我的电脑能跑吗？
A: 20B 模型需要 8GB+ 显存，没有独显也能用 CPU 运行（稍慢）。

Q: 真的完全免费？
A: 100% 免费！所有模型都是开源的，无隐藏费用。

Q: 可以切换模型吗？
A: 可以！随时下载新模型，OpenClaw 支持一键切换。

微信 H5 缓存控制：后端重定向 & 前端强制刷新

在 Web 开发中，缓存是一把双刃剑。对于静态资源，它能极大提升加载速度；但对于业务逻辑频繁变动的 H5 页面（如支付、订单页），缓存往往会导致用户看到过期的数据或界面。最近在维护一个 uni-app 项目时，遇到了一段关于 H5 缓存控制的逻辑，引发了我对于“后端重定向加时间戳”和“前端 JS 加时间戳”这两种方案的思考。虽然两者的最终目的一致，但在 Hash 模式下，它们的实现原理和效果有着本质的区别。一、问题背景在应用启动的生命周期中，通常会有这样一段逻辑：当用户访问特定的关键页面（如支付、订单页）时，如果当前 URL 中缺少时间戳参数，前端会自动解析 URL，追加当前时间戳，并强制页面刷新。这就引出了一个问题：为什么不直接在后端重定向时加时间戳？这两种方式有什么区别？二、核心区别：

通义千问3-14B镜像使用指南：Ollama WebUI集成实操手册

通义千问3-14B镜像使用指南：Ollama WebUI集成实操手册 1. 为什么选Qwen3-14B？单卡跑出30B级效果的务实之选你是不是也遇到过这些情况：想用大模型做长文档分析，但Qwen2-72B显存爆了；想部署推理服务，却发现Llama3-70B连双卡都吃不消；想商用又卡在许可证上，MIT和Apache协议反复对比到头秃……别折腾了，Qwen3-14B就是为你准备的“守门员”——不是参数堆出来的纸面王者，而是真正在RTX 4090单卡上稳稳跑满、128k上下文一次加载、双模式自由切换的实干派。它不靠MoE稀疏激活来凑参数量，148亿全激活Dense结构，意味着每层每个参数都在认真干活。FP8量化后仅14GB显存占用，A100上120 token/s，4090上也能稳住80 token/s——这不是实验室数据，是实测可复现的消费级硬件表现。更关键的是，它把“思考过程”做成可开关的选项：需要深度推理时打开Thinking模式，数学题、代码生成、逻辑链拆解直接对标QwQ-32B；日常对话、文案润色、多语种翻译就切到Non-thinking模式，延迟砍半，响应快得像本地打

前端AI工具实践

Claude Code前端使用步骤一：安装 Claude Code npm install -g @anthropic-ai/claude-code 运行如下命令，查看安装结果，若显示版本号则表示安装成功 claude --version 步骤二：配置Claude Code+GLM智谱大模型(免费) Coding Tool Helper 是一个编码工具助手，安装并运行它，按照界面提示操作即可自动完成工具安装，套餐配置，MCP服务器管理等。 # 进入命令行界面，执行如下运行 Coding Tool Helper npx @z_ai/coding-helper 步骤三：开始使用 Claude Code VSCODE安装Claude Code 插件 Claude Code CLI(到指定项目目录打开CLI) Claude

从零构建高可靠语音通话功能：WebRTC 实战与避坑指南

快速体验在开始今天关于从零构建高可靠语音通话功能：WebRTC 实战与避坑指南的探讨之前，我想先分享一个最近让我觉得很有意思的全栈技术挑战。我们常说 AI 是未来，但作为开发者，如何将大模型（LLM）真正落地为一个低延迟、可交互的实时系统，而不仅仅是调个 API？这里有一个非常硬核的动手实验：基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说，这是个绝佳的练手项目。从0到1构建生产级别应用，脱离Demo，点击打开从0打造个人豆包实时通话AI动手实验从零构建高可靠语音通话功能：WebRTC 实战与避坑指南最近在开发一款社交APP时，团队遇到了语音通话功能的"三座大山"：用户反馈通话像在太空对话（延迟超过500ms）、会议室场景回声严重、