Windows 11 下利用 llama.cpp 测试 Qwen3.5 量化模型

记录了在 Windows 11 环境下使用 llama.cpp 运行 Qwen3.5 系列量化模型的测试过程。主要步骤包括下载 CPU 版本的 llama.cpp 二进制文件，从 HuggingFace 获取 GGUF 格式的量化模型（如 0.8B 和 2B 版本）。测试涵盖了翻译、数学解题及物理化学问答等任务。结果显示，UD-Q4_K_XL 精度优于 Q4_K_M，但小模型在复杂逻辑推理上存在幻觉或错误。生成速度方面，0.8B 模型约 30-36 t/s，2B 模型约 23 t/s。测试发现连续对话中模型容易出错，且部分指令遵循能力有待提升。

邪神洛基发布于 2026/4/6更新于 2026/4/1711 浏览

Windows 11 下利用 llama.cpp 测试 Qwen3.5 量化模型

1. 下载 llama.cpp 二进制文件

访问官方发布页面： https://github.com/ggml-org/llama.cpp/releases

选择适合自己平台的版本。由于没有独立显卡，本次选择 CPU 版本。

下载地址示例： https://github.com/ggml-org/llama.cpp/releases/download/b8192/llama-b8192-bin-win-cpu-x64.zip

解压到本地目录，例如 D:\llama8。

2. 下载量化模型

参考相关社区指南，建议闭眼选 UD-Q4_K_XL 或 Q4_K_M。Unsloth 官方的 KL Divergence 测试显示，UD-Q4_K_XL 在 Pareto 前沿上表现 SOTA（State of the Art），精度损失可以忽略不计。

原 HuggingFace 命令行方式可能因网络问题失败，可通过镜像站手工查找文件，使用 wget 分别下载不同版本：

Qwen3.5-0.8B-Q4_K_M.gguf
Qwen3.5-0.8B-UD-Q4_K_XL.gguf
Qwen3.5-2B-UD-Q4_K_XL.gguf

3. 模型测试

第一个模型 (Qwen3.5-0.8B.Q4_K_M)

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B.Q4_K_M.gguf --ctx-size 16384

测试结果：

翻译任务： 直接抄录英文原文，未理解英译中意图。修正指令为 "translate into Chinese" 后正常输出。
生成速度： 约 36 t/s。
内存占用： Host 1192 MiB。

第二个模型 (Qwen3.5-0.8B-UD-Q4_K_XL)

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-0.8B-UD-Q4_K_XL.gguf --ctx-size 16384

测试结果：

翻译任务： 成功翻译技术文档内容，但部分术语（如 conjunctive queries）未准确翻译。
数学解题： 能正确解一元二次方程 x^2 - x - 20 = 0，步骤清晰。
物理题： 计算瞬时功率时出现错误，推导过程复杂且结论有误。
生成速度： 约 32 t/s。
内存占用： Host 1222 MiB。

第三个模型 (Qwen3.5-2B-UD-Q4_K_XL)

C:\d\models\qw3508q4> D:\llama8\llama-cli -m Qwen3.5-2B-UD-Q4_K_XL.gguf --ctx-size 16384

测试结果：

翻译任务： 漏译了 "conjunctive" 一词。
数学解题： 能解方程，但在因式分解法中给出错误结果 (x=4, x=-5)。

Windows 11 下利用 llama.cpp 测试 Qwen3.5 量化模型