1. Qwen
Qwen3.5 是阿里云通义千问团队发布的新一代开源大模型系列,提供基础智能能力。主要作为基础模型,具备文本生成、复杂推理、多模态理解和工具调用等能力。
Qwen3.5 具备以下增强特性:
- 统一的视觉 - 语言基础:在多模态 token 上进行早期融合训练,在推理、编码、智能体和视觉理解等基准测试中表现优异。
- 高效混合架构:门控 Delta 网络与稀疏混合专家相结合,实现高吞吐推理,同时保持极低延迟和成本开销。
- 可扩展的强化学习泛化能力:在百万级智能体环境中进行强化学习训练,获得强大的现实世界适应能力。
- 全球语言覆盖:支持扩展至 201 种语言和方言,实现包容性的全球部署。
- 下一代训练基础设施:多模态训练效率接近 100%,并采用异步强化学习框架。
文件名中 B 代表 billion(十亿),指模型的参数量。例如 2B=20 亿参数。一般来说,参数量越大,能够学习到的知识更丰富,处理复杂逻辑推理的能力也越强。参数量直接决定了运行模型所需的内存(显存)和存储空间。
考虑到本地个人电脑(无独显)硬件配置,此处选择【Qwen3.5-0.8B-GGUF】举例。GGUF 是一种专为大型语言模型设计的二进制文件格式,全称 GPT-Generated Unified Format。其核心目标是让庞大的 AI 模型能在普通电脑上更快地加载和运行。
推荐文件:
- Qwen3.5-0.8B-Q4_K_M.gguf:平衡性最好,质量与大小的黄金比例;适用于日常对话、文本生成。
- Qwen3.5-0.8B-Q3_K_S.gguf:文件最小,运行最快,但质量略有下降。
- Qwen3.5-0.8B-Q5_K_M.gguf:质量更好,接近原始模型,但文件稍大。
不建议使用的文件:
- mmproj-*.gguf:多模态投影文件,纯文本模型不需要。
- Qwen3.5-0.8B-BF16.gguf:未量化的完整模型,内存占用太大。
- Qwen3.5-0.8B-Q8_0.gguf:质量提升有限但体积大很多。
文件名含义:
- Q4/Q5/Q8:量化位数,越高质量越好但文件越大。
- K_M/K_S:K 表示 K-quants 量化方法,M 是中等质量,S 是小体积。
- IQ:改进型量化,压缩率更高。
2. Ollama
Ollama 是一个开源、轻量级的工具,可以在个人电脑上轻松运行大型语言模型。它可以理解为本地版的 AI 模型运行平台,无需联网和复杂的配置。
核心价值:
- 极致简化部署:通过一行命令 ollama run <模型名>,自动完成模型的下载、加载和启动。
- 数据隐私安全:所有模型和数据都在本地运行,无需上传到云端。
- 硬件资源友好:采用模型量化等技术,降低对内存的需求。
引入本地离线模型步骤(以 Qwen3.5 为例):
- 首先进入模型目录:
cd "C:\Users\Administrator\.cache\modelscope\hub\models\unsloth\Qwen3.5-0.8B-GGUF"
- 创建 Modelfile 此文件无后缀:
echo FROM Qwen3.5-0.8B-Q4_K_M.gguf > Modelfile
- 创建模型(相对路径在当前目录下):
ollama create qwen3.5-0.8b-4km -f ./Modelfile
- 重启 ollama 即可选择该模型,或者执行命令:
ollama run qwen3.5-0.8b-4km
3. LLaMaFactory
安装详情参考官方文档。CUDA 安装包需根据系统版本下载。
安装完成后命令行验证:
nvcc -V


