大模型基于llama.cpp量化详解

优质文章学习记录

10 Apr 2026 — 3 min read

概述

llama.cpp 是一个高性能的 LLM 推理库，支持在各种硬件（包括 CPU 和 GPU）上运行量化后的大语言模型。本文档详细介绍如何使用 llama.cpp 将 HuggingFace 格式的模型转换为 GGUF 格式，并进行不同程度的量化。

GGUF 格式：GGUF（Georgi Gerganov Universal Format）是 llama.cpp 专门设计的模型文件格式，针对快速加载和保存模型进行了优化，支持单文件部署，包含加载模型所需的所有信息，无需依赖外部文件。

1.安装cmake
CMake 是跨平台的构建工具，用于编译 llama.cpp 项目。

下载地址：https://cmake.org/download/

安装建议：

Windows 用户建议下载 cmake-3.x.x-windows-x86_64.msi 安装包
安装时选择 “Add CMake to the system PATH”，以便在命令行中直接使用

验证安装：

cmake --version 2.安装llama.cpp ```bash git clone https://github.com/ggerganov/llama.cpp

convert_hf_to_gguf.py：HuggingFace 格式转 GGUF 的脚本
llama-quantize（或 quantize.exe）：量化工具
main（或 main.exe）：推理主程序
examples/：各种示例程序

3.编译

cd llama.cpp pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple pip install -r requirements/requirements-convert_hf_to_gguf.txt cmake -G "MinGW Makefiles" -DCMAKE_C_COMPILER=gcc -DCMAKE_CXX_COMPILER=g++ -B build cmake --build build --config Release

4.模型转换
将safetensors转换为gguf

 convert-hf-to-gguf.py D:\\Project\\2026\\llama3-lora-merge --outtype f16 --outfile D:\\Project\\2026\\my_llama3.gguf

参数说明：
D:\Project\2026\llama3-lora-merge：输入模型路径（包含 config.json 和权重文件的目录）
–outtype f16：输出类型，f16 表示半精度浮点数（16-bit），可选 f32（全精度）或 bf16
–outfile：输出 GGUF 文件路径

类型	精度	说明
`f32`	32-bit	全精度，文件最大，精度最高
`f16`	16-bit	半精度，平衡选择
`bf16`	16-bit	Brain Float，动态范围更大
`q8_0`	8-bit	直接量化为 8 位

6.进一步量化

 D:\Project\2026\test_llama3.cpp\llama.cpp\build\bin\Release quantize.exe D:\\Project\\2026\\my_llama3.gguf D:\\Project\\2026\\quantized_model.gguf q4_0

llama-quantize可执行文件来对模型进行进一步量化处理。量化可以帮助我们减少模型的大小，但是代价是损失了模型精度，也就是模型回答的能力可能有所下降。权衡以后我们可以选择合适的量化参数，保证模型的最大效益。
量化使用 q 表示存储权重的位数。位数越低，模型越小，速度越快，但精度损失越大。

量化类型	位宽	精度损失	适用场景	典型压缩率
`q2_k`	2-bit	高	极低资源环境，实验用途	~75%
`q3_k_s` / `q3_k_m` / `q3_k_l`	3-bit	中高	资源受限，可接受一定质量损失	~60%
`q4_0` / `q4_1`	4-bit	中	最常用，平衡大小与质量	~50%
`q4_k_s` / `q4_k_m`	4-bit	中	改进的 4-bit，质量更好	~50%
`q5_0` / `q5_1`	5-bit	低	较高质量要求	~40%
`q5_k_s` / `q5_k_m`	5-bit	低	改进的 5-bit	~40%
`q6_k`	6-bit	很低	接近原始质量	~35%
`q8_0`	8-bit	极低	几乎无损，文件较大	~25%
`f16`	16-bit	无	原始转换，未量化	0%

K-quant 说明：
后缀带 _k 的（如 q4_k_m）使用改进的量化算法
混合量化策略：对 attention 层使用更高精度，其他层使用较低精度
_s（small）、_m（medium）、_l（large）表示混合程度

探索WAAPI：开启Web动画新纪元

目录一.WAAPI的诞生背景二.WAAPI的核心组件与工作原理 2.1核心组件 2.2工作原理三.WAAPI的显著优势 3.1性能卓越 3.2精确控制 3.3代码简洁易读 3.4兼容性与扩展性四.WAAPI的应用场景与实践案例 4.1页面过渡动画 4.2交互式动画 4.3数据可视化动画五.WAAPI的未来展望在当今数字化时代，Web页面不再仅仅是静态信息的展示平台，而是逐渐演变为充满交互性和动态效果的多媒体空间。动画作为增强用户体验、传达信息的重要手段，在Web开发中扮演着愈发关键的角色。而Web Animations API（简称WAAPI）的出现，为Web动画开发带来了革命性的变化，它以其强大的功能和灵活的操控性，成为开发者手中的一把利器。一.WAAPI的诞生背景在WAAPI出现之前，Web开发者实现动画主要依赖CSS动画和JavaScript动画库。CSS动画虽然简单易用，但在控制动画的精确性和交互性方面存在一定局限；而传统的JavaScript动画库虽然功能丰富，

【Dify】使用 python 调用 Dify 的 API 服务，查看“知识检索”返回内容，用于前端溯源展示

本文介绍了如何使用Dify HTTP API实现聊天问答功能，支持文本和图文交互。主要包含三个核心接口：上传文件获取ID、发送聊天消息（可携带图片）和删除会话。脚本提供了极简封装类DifyChat，包含安全响应解析和可选会话管理功能。使用时需配置API地址、密钥和用户标识，支持纯文本问答和图文问答两种模式，并详细说明了流式输出、多用户适配等扩展场景的实现方法。参考链接：对接Dify的api接口上传文件、发起对话、删除对话一、Dify 聊天示例脚本说明本脚本演示了如何通过 Dify HTTP API 进行聊天问答，并可选携带图片。核心流程： 1. 上传文件（可选） * 调用 /v1/files/upload 上传本地图片，得到 upload_file_id。 * 只有在需要图文问答时才上传；纯文本时可跳过。 2. 发送对话消息 * 调用 /v1/chat-messages，

PinMe——极简、免费和无需服务器的开源前端部署工具

PinMe是一个开源的前端部署工具，它通过将静态网站文件上传到去中心化的IPFS网络来实现快速发布，主打极简、免费和无需服务器，目前Github 1.7k stars。 Github地址：https://github.com/glitternetwork/pinme PinMe 的官方网站：https://pinme.eth.limo/ 如何使用PinMe? 包含两种部署方式，都可实现快速极简部署方式一：Deploy from Terminal（使用命令行的方式）全局安装： npm install -g pinme 上传已经打包后的项目文件： pinme upload <folder/file-path> 成功上传文件并完成部署后点击链接即跳转PinMe官网，显示项目详情（包含项目网页预览）与简化后的项目链接：点击"Your Site Link"

WebPShop：革新性WebP格式支持的Photoshop全方位解决方案

WebPShop：革新性WebP格式支持的Photoshop全方位解决方案【免费下载链接】WebPShopPhotoshop plug-in for opening and saving WebP images 项目地址: https://gitcode.com/gh_mirrors/we/WebPShop WebPShop作为一款开源Photoshop插件，彻底解决了Adobe Photoshop对WebP现代图像格式的原生支持缺失问题。通过该插件，设计师可直接在Photoshop环境中实现WebP图像的打开、编辑与保存操作，覆盖静态图片与动态动画全场景需求，消除了格式转换的额外工作流，显著提升图像处理效率。功能亮点解析：核心技术特性与优势格式全兼容实现：WebP文件双向处理机制 WebPShop插件通过底层编解码模块实现了与Photoshop的深度集成。核心实现代码位于「编解码核心：common/WebPShopDecodeUtils.cpp」与「编码逻辑：common/WebPShopEncodeUtils.cpp」，提供从WebP到PSD格式的无损转换能力，同

概述

Read more

探索WAAPI：开启Web动画新纪元

【Dify】使用 python 调用 Dify 的 API 服务，查看“知识检索”返回内容，用于前端溯源展示

PinMe——极简、免费和无需服务器的开源前端部署工具

WebPShop：革新性WebP格式支持的Photoshop全方位解决方案