Windows 11 本地部署 llama.cpp 运行 Qwen3.5 量化模型测试
1. 下载 llama.cpp 二进制文件
访问官方发布页面: https://github.com/ggml-org/llama.cpp/releases
选择适合自己平台的版本。由于没有独立显卡,本次选择 CPU 版本。
下载地址示例: https://github.com/ggml-org/llama.cpp/releases/download/b8192/llama-b8192-bin-win-cpu-x64.zip
解压到 D:\llama8 目录。
2. 下载量化模型
参考相关社区指南,建议闭眼选 UD-Q4_K_XL 或 Q4_K_M。Unsloth 官方的 KL Divergence 测试显示,UD-Q4_K_XL 在 Pareto 前沿上表现 SOTA(State of the Art),精度损失可以忽略不计。
原 Hugging Face 命令行方式失败,出现连接超时错误。因此通过镜像站手工查找文件,使用 wget 分别下载了以下三个版本:
- https://hf-mirror.com/Mustafaege/Qwen3.5-0.8B-GGUF-q4_k_m/resolve/main/Qwen3.5-0.8B.Q4_K_M.gguf?download=true
- https://hf-mirror.com/unsloth/Qwen3.5-0.8B-GGUF/resolve/main/Qwen3.5-0.8B-UD-Q4_K_XL.gguf?download=true
- https://hf-mirror.com/unsloth/Qwen3.5-2B-GGUF/resolve/main/Qwen3.5-2B-UD-Q4_K_XL.gguf?download=true
第一个模型不是 Unsloth 官方发布的,大小和 Unsloth 的差不多,一开始找到的,就没有改。
相关页面有具体调用方法的说明,为简单起见,使用命令行格式进行测试。
2.1 第一个模型测试 (Qwen3.5-0.8B.Q4_K_M)
C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384
加载信息:
load_backend: loaded RPC backend from C:\d\llama8\ggml-rpc.dll
load_backend: loaded CPU backend from C:\d\llama8\ggml-cpu-zen4.dll
Loading model...
build : b8192-137435ff1
model : Qwen3.5-0.8B.Q4_K_M.gguf
modalities :
available commands:
/exits Ctrl+C
/regen regenerate the last response
/clear clear the chat history
/read add a file

