Windows 11 下利用 llama.cpp 测试 Qwen3.5 量化模型
1. 下载 llama.cpp 二进制文件
访问官方发布页面: https://github.com/ggml-org/llama.cpp/releases
选择适合自己平台的版本。由于没有独立显卡,本次选择 CPU 版本。
下载地址示例: https://github.com/ggml-org/llama.cpp/releases/download/b8192/llama-b8192-bin-win-cpu-x64.zip
解压到本地目录,例如 D:\llama8。
2. 下载量化模型
参考相关社区指南,建议闭眼选 UD-Q4_K_XL 或 Q4_K_M。Unsloth 官方的 KL Divergence 测试显示,UD-Q4_K_XL 在 Pareto 前沿上表现 SOTA(State of the Art),精度损失可以忽略不计。
原 HuggingFace 命令行方式可能因网络问题失败,可通过镜像站手工查找文件,使用 wget 分别下载不同版本:
- Qwen3.5-0.8B-Q4_K_M.gguf
- Qwen3.5-0.8B-UD-Q4_K_XL.gguf
- Qwen3.5-2B-UD-Q4_K_XL.gguf
3. 模型测试
第一个模型 (Qwen3.5-0.8B.Q4_K_M)
C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384
测试结果:
- 翻译任务: 直接抄录英文原文,未理解英译中意图。修正指令为 "translate into Chinese" 后正常输出。
- 生成速度: 约 36 t/s。
- 内存占用: Host 1192 MiB。
第二个模型 (Qwen3.5-0.8B-UD-Q4_K_XL)
C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B-UD-Q4_K_XL.gguf --ctx-size 16384
测试结果:
- 翻译任务: 成功翻译技术文档内容,但部分术语(如 conjunctive queries)未准确翻译。
- 数学解题: 能正确解一元二次方程 x^2 - x - 20 = 0,步骤清晰。
- 物理题: 计算瞬时功率时出现错误,推导过程复杂且结论有误。
- 生成速度: 约 32 t/s。
- 内存占用: Host 1222 MiB。
第三个模型 (Qwen3.5-2B-UD-Q4_K_XL)
C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-2B-UD-Q4_K_XL.gguf --ctx-size 16384
测试结果:
- 翻译任务: 漏译了 "conjunctive" 一词。
- 数学解题: 能解方程,但在因式分解法中给出错误结果 (x=4, x=-5)。

