Qwen3.5 系列开源大模型本地部署全流程

在本地 PC 环境下部署 Qwen3.5 开源大模型的流程。首先通过 ModelScope 下载 GGUF 格式模型文件，随后演示了使用 Ollama 和 llama.cpp 进行本地推理的方法。针对 LLaMaFactory 微调工具，因硬件限制未展开实践，重点验证了 CPU 环境下的模型运行可行性。

性能调优发布于 2026/4/2更新于 2026/4/187 浏览

1. Qwen

Qwen3.5 是阿里云通义千问团队发布的新一代开源大模型系列，提供基础智能能力。主要作为基础模型，具备文本生成、复杂推理、多模态理解和工具调用等能力。

Qwen3.5 具备以下增强特性：

统一的视觉 - 语言基础：在多模态 token 上进行早期融合训练，在推理、编码、智能体和视觉理解等基准测试中表现优异。
高效混合架构：门控 Delta 网络与稀疏混合专家相结合，实现高吞吐推理，同时保持极低延迟和成本开销。
可扩展的强化学习泛化能力：在百万级智能体环境中进行强化学习训练，获得强大的现实世界适应能力。
全球语言覆盖：支持扩展至 201 种语言和方言，实现包容性的全球部署。
下一代训练基础设施：多模态训练效率接近 100%，并采用异步强化学习框架。

文件名中 B 代表 billion（十亿），指模型的参数量。例如 2B=20 亿参数。一般来说，参数量越大，能够学习到的知识更丰富，处理复杂逻辑推理的能力也越强。参数量直接决定了运行模型所需的内存（显存）和存储空间。

考虑到本地个人电脑（无独显）硬件配置，此处选择【Qwen3.5-0.8B-GGUF】举例。GGUF 是一种专为大型语言模型设计的二进制文件格式，全称 GPT-Generated Unified Format。其核心目标是让庞大的 AI 模型能在普通电脑上更快地加载和运行。

推荐文件：

Qwen3.5-0.8B-Q4_K_M.gguf：平衡性最好，质量与大小的黄金比例；适用于日常对话、文本生成。
Qwen3.5-0.8B-Q3_K_S.gguf：文件最小，运行最快，但质量略有下降。
Qwen3.5-0.8B-Q5_K_M.gguf：质量更好，接近原始模型，但文件稍大。

不建议使用的文件：

mmproj-*.gguf：多模态投影文件，纯文本模型不需要。
Qwen3.5-0.8B-BF16.gguf：未量化的完整模型，内存占用太大。
Qwen3.5-0.8B-Q8_0.gguf：质量提升有限但体积大很多。

文件名含义：

Q4/Q5/Q8：量化位数，越高质量越好但文件越大。
K_M/K_S：K 表示 K-quants 量化方法，M 是中等质量，S 是小体积。
IQ：改进型量化，压缩率更高。

2. Ollama

Ollama 是一个开源、轻量级的工具，可以在个人电脑上轻松运行大型语言模型。它可以理解为本地版的 AI 模型运行平台，无需联网和复杂的配置。

核心价值：

极致简化部署：通过一行命令 ollama run <模型名>，自动完成模型的下载、加载和启动。
数据隐私安全：所有模型和数据都在本地运行，无需上传到云端。
硬件资源友好：采用模型量化等技术，降低对内存的需求。

引入本地离线模型步骤（以 Qwen3.5 为例）：

cd "C:\Users\Administrator\.cache\modelscope\hub\models\unsloth\Qwen3.5-0.8B-GGUF"

创建 Modelfile 此文件无后缀：

echo FROM Qwen3.5-0.8B-Q4_K_M.gguf > Modelfile

ollama create qwen3.5-0.8b-4km -f ./Modelfile

重启 ollama 即可选择该模型，或者执行命令：

ollama run qwen3.5-0.8b-4km

3. LLaMaFactory

安装详情参考官方文档。CUDA 安装包需根据系统版本下载。

安装完成后命令行验证：

nvcc -V

Qwen3.5 系列开源大模型本地部署全流程

1. Qwen

2. Ollama

3. LLaMaFactory

更多推荐文章

相关免费在线工具

4. llama.cpp

Qwen3.5 系列开源大模型本地部署全流程

1. Qwen

2. Ollama

3. LLaMaFactory

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. llama.cpp