本地离线部署AI大模型：OpenClaw + Ollama + Qwen3.5:cloud/Qwen3:0.6b 超详细教程（无需GPU）

优质文章学习记录

07 Apr 2026 — 7 min read

前言

随着开源大模型越来越成熟，我们完全可以在自己电脑上本地运行AI，不联网、不上传数据、免费使用，隐私性极强。

今天这篇文章，我会一步步带你完成：Ollama + Qwen3.5:cloud（主力模型）+ Qwen3:0.6b（轻量备选）+ OpenClaw 的本地部署，实现一个属于自己的本地聊天AI，兼顾效果与低配置适配。

一、项目介绍

本项目实现本地离线运行阿里通义千问系列大模型（Qwen3.5:cloud 主力模型 + Qwen3:0.6b 轻量备选模型），全程不需要云端API，不需要高性能显卡，普通电脑就能跑，可根据自身电脑配置选择对应模型。

用到的工具：

Ollama：最简单的本地大模型管理工具，一键拉取、运行、管理模型

Qwen3.5:cloud：阿里云开源的轻量高性能大语言模型，对话效果强、适配本地部署，作为主力使用

Qwen3:0.6b：阿里云开源的超轻量大语言模型，占用内存极低（1GB左右），适合8GB内存低配电脑，作为备选模型

OpenClaw：美观好用的本地AI可视化交互界面

特点：免费、离线、隐私安全、低配置可运行

二、环境准备

操作系统：Windows 10 / Windows 11

内存：最低 8GB（推荐 16GB 更流畅）

无需独立显卡，CPU 即可运行

网络：仅在下载模型时需要，运行时可完全断网

三、详细安装步骤

安装 Ollama

Ollama 是运行模型的核心，安装非常简单。

打开官网：https://ollama.com/
点击 Download 下载 Windows 版本
双击安装，一路下一步
安装完成后，Ollama 会自动在后台运行

验证是否安装成功：

打开 CMD 或 PowerShell，输入：

ollama --version

出现版本号即成功。

使用 Ollama 下载并运行模型（Qwen3.5:cloud + Qwen3:0.6b）

我实际下载了两个模型，可根据自身电脑配置选择运行，优先推荐 Qwen3.5:cloud（效果更好），8GB内存低配电脑推荐 Qwen3:0.6b（更流畅）。

2.1 下载并运行 Qwen3.5:cloud（主力模型）

继续在命令行输入以下命令，
第一次运行会自动下载模型，下载完成后出现 >>> 即启动成功，可直接输入问题测试，适配低配电脑，运行流畅无压力。

ollama run qwen3.5:cloud

出现 >>> 表示模型已启动成功。

你可以直接在这里输入问题测试：

你好，介绍一下自己

模型能正常回答，说明 Qwen3.5:cloud 部署成功。

2.2 下载并运行 Qwen3:0.6b（轻量备选模型）

若电脑内存较低（8GB及以下），运行 Qwen3.5:cloud 卡顿，可下载 Qwen3:0.6b 超轻量模型，命令行输入：

ollama run qwen3:0.6b

出现 >>> 表示模型已启动成功。

你可以直接在这里输入问题测试：
你好，介绍一下自己

模型能正常回答，说明部署成功一半。

安装 OpenClaw 可视化界面

OpenClaw 让你不用敲命令，直接像 ChatGPT 一样聊天。

打开 OpenClaw 发布页：https://github.com/sqzw-x/OpenClaw
找到最新版本下载 Windows 安装包
解压或安装后打开软件
连接 OpenClaw 与本地 Ollama

打开 OpenClaw 后：

右上角进入设置
模型选择：根据自身需求选择，主力推荐 qwen3.5:cloud，低配电脑选择 qwen3:0.6b
Ollama 地址保持默认：

http://localhost:11434

保存设置

回到主界面，即可开始聊天。

四、效果展示

与AI对话的效果截图
任务管理器内存占用展示（打开任务管理器，切换到“性能-内存”页面，同步显示AI运行状态）

示例说明：

OpenClaw 连接成功界面（截图包含设置页面、模型选择（可分别展示 qwen3.5:cloud 和 qwen3:0.6b 选择界面）、地址配置）

模型启动速度：约 3～10 秒

回答速度：流畅，可日常使用

五、常见问题与解决方法（非常重要）

内存占用：Qwen3.5:cloud 约 2GB～4GB，Qwen3:0.6b 约 1GB～1.5GB

模型启动速度：Qwen3.5:cloud 约 3～10 秒，Qwen3:0.6b 约 1～3 秒

回答速度：均流畅可日常使用，Qwen3:0.6b 适配低配电脑，卡顿更少

模型下载特别慢

解决方法：

先暂停下载重新开始，进度不会变

或等待半夜下载（网络高峰期避开）

OpenClaw 连接失败 / 连不上 127.0.0.1:11434

解决方法：

确保 Ollama 正在后台运行（任务栏右下角查看 Ollama 图标）

重启 Ollama：任务栏右键 Ollama → Restart

检查地址是否为：http://localhost:11434（切勿多写/少写字符）

电脑卡顿、内存不足

解决方法：

关闭其他软件（尤其是浏览器、视频软件、后台下载工具）

关闭其他软件（尤其是浏览器、视频软件、后台下载工具），释放内存

解决方法：

切换/运行 Qwen3:0.6b 命令：

切换至超轻量模型：若运行 Qwen3.5:cloud 卡顿，可切换到 Qwen3:0.6b 模型，占用内存极低，适配8GB及以下低配电脑

ollama run qwen3:0.6b

命令：

使用更小参数模型（若 qwen3.5:cloud 卡顿）：qwen3.5:4b

OpenClaw 不显示模型（qwen3.5:cloud 或 qwen3:0.6b）

ollama run qwen3.5:4b

解决方法：

重启 OpenClaw 软件，重新加载模型列表

解决方法：

重新进入 OpenClaw 设置，根据自身需求选择 qwen3.5:cloud 或 qwen3:0.6b 模型并保存

重启 OpenClaw 软件

确认 Ollama 已成功拉取模型（命令行输入 ollama list 可查看已拉取的 qwen3.5:cloud 和 qwen3:0.6b 模型）

确认 Ollama 已成功拉取模型（命令行输入 ollama list 可查看已拉取模型）

六、项目总结

通过 Ollama + Qwen3.5:cloud + OpenClaw，我们轻松实现了：

通过 Ollama + Qwen3.5:cloud（主力）+ Qwen3:0.6b（备选）+ OpenClaw，我们轻松实现了：

本地离线运行大模型

完全免费、无流量限制

可视化界面，使用体验接近在线AI

数据不上传，隐私百分百安全

适合人群：

想学习AI本地部署的新手

想学习AI本地部署的新手

注重隐私、不想数据上传云端

学生、开发者、日常办公使用；8GB内存低配电脑也能轻松适配（选择 Qwen3:0.6b 模型）

注重隐私、不想数据上传云端

学生、开发者、日常办公使用

llama.cpp最新版Windows编译全记录：从源码下载到模型测试（含w64devkit配置）

llama.cpp Windows编译实战：从工具链配置到模型部署全解析在本地运行大型语言模型正成为开发者探索AI能力的新趋势，而llama.cpp以其高效的C++实现和跨平台特性脱颖而出。本文将深入探讨Windows平台下llama.cpp的完整编译流程，特别针对开发者常遇到的环境配置、API兼容性和性能优化问题进行系统化梳理。 1. 开发环境准备与工具链配置 Windows平台编译C++项目需要精心配置工具链，而w64devkit提供了一个轻量级但功能完整的解决方案。与常见的Visual Studio或MinGW-w64不同，w64devkit将所有必要工具集成在单个便携包中，特别适合需要干净编译环境的开发者。核心组件获取步骤： 1. 访问w64devkit官方GitHub仓库，下载最新稳定版本（当前推荐1.23.0） 2. 解压至不含中文和空格的路径，例如D:\dev\w64devkit-1.23.0 3. 验证基础功能：运行w64devkit.exe后执行gcc --version 注意：Windows 7用户需确保系统已安装KB2533623补丁，否则

春晚机器人刷屏背后：AI大模型风口已来，建议收藏！普通人也能上车的高薪赛道

春晚落幕之后，全网都在热议同一个话题：这届晚会的机器人含量也太高了！不管是主舞台上灵活走位、完成高难度动作的人形机器人，还是在幕后支撑节目创意、视觉效果的AI大模型，整台晚会从头到尾都被满满的科技感包围。很多人看完只觉得新鲜、震撼，却没看懂其中真正的信号：春晚机器人刷屏，从来不是一场单纯的技术表演，而是一个非常直白的行业信号——AI和机器人已经彻底走出实验室，真正走进普通人的生活，还悄悄带火了两个藏在幕后的黄金赛道。最先被引爆的，就是机器人租赁这个小众又暴利的生意。春晚热度一上来，线下机器人需求直接爆发。机器人租赁服务平台擎天租公布了一组非常直观的数据：今年春节期间，平台订单环比增长近70%。图片来源网络，侵删可能很多人会好奇：过年租机器人，到底能用来干嘛？其实应用场景比你想象中更接地气。商场需要迎宾机器人引流揽客，景区需要讲解机器人服务游客，商圈活动、企业年会需要互动机器人带动气氛，就连很多门店引流、社区活动，都愿意租一台机器人撑场面、吸眼球。以前过年，大家拼的是年味、是团聚；现在年轻人更追求新潮体验，机器人不用高价购买，按天租赁就能用，

LLaMA - Factory安装部署及微调流程

LLaMA - Factory安装部署及微调流程笔记一、部署前准备（一）明确依赖环境 1. 必备依赖 * Python建议采用3.11版本，该版本在大模型系列中适配性佳，能更好地支持LLaMA - Factory的运行。 * CUDA可选择12.1或12.2版本。实际使用中，即便下载时Pytorch最高仅对应12.1（显卡最高支持12.2），也可正常安装使用。此外，torch、transformers、datasets、accelerate、peft、trl等库也必不可少，各有其最低和推荐版本，安装时务必严格遵循版本要求，否则易出现难以解决的未知问题。 2. 可选依赖 3. deepspeed、bitsandbytes、vllm、flash - attn等属于可选依赖。例如deepspeed可减少内存消耗，适用于内存资源有限的情况，但可能会使训练时间拉长。即便不安装这些可选依赖，LLaMA - Factory依然能够完成微调任务。

Nanbeige4.1-3B多轮对话效果展示：Chainlit中持续追问、记忆保持、角色扮演实录

Nanbeige4.1-3B多轮对话效果展示：Chainlit中持续追问、记忆保持、角色扮演实录 1. 引言：当小模型遇上大智慧最近在测试各种开源模型时，我遇到了一个让人眼前一亮的“小家伙”——Nanbeige4.1-3B。说实话，刚开始看到“3B”这个参数规模时，我并没有抱太高期望。毕竟现在动辄几十B、上百B的模型太多了，3B能有什么表现？但实际测试下来，这个模型给了我不少惊喜。特别是在多轮对话场景下，它的表现完全超出了我对这个参数规模模型的预期。今天这篇文章，我就想带大家看看，这个“小身材”的模型，在Chainlit前端配合下，到底能展现出什么样的“大智慧”。我会通过几个真实的对话场景，展示它在持续追问、记忆保持、角色扮演等方面的实际效果。 2. 模型与部署环境简介 2.1 Nanbeige4.1-3B：小参数，大能力 Nanbeige4.1-3B是基于Nanbeige4-3B-Base构建的增强版本。简单来说，它是在基础模型上，通过进一步的监督微调和强化学习优化而来的。

2.1 下载并运行 Qwen3.5:cloud（主力模型）

2.2 下载并运行 Qwen3:0.6b（轻量备选模型）

Read more

llama.cpp最新版Windows编译全记录：从源码下载到模型测试（含w64devkit配置）

春晚机器人刷屏背后：AI大模型风口已来，建议收藏！普通人也能上车的高薪赛道

LLaMA - Factory安装部署及微调流程

Nanbeige4.1-3B多轮对话效果展示：Chainlit中持续追问、记忆保持、角色扮演实录