大模型基于llama.cpp量化详解

优质文章学习记录

05 Apr 2026 — 3 min read

概述

llama.cpp 是一个高性能的 LLM 推理库，支持在各种硬件（包括 CPU 和 GPU）上运行量化后的大语言模型。本文档详细介绍如何使用 llama.cpp 将 HuggingFace 格式的模型转换为 GGUF 格式，并进行不同程度的量化。

GGUF 格式：GGUF（Georgi Gerganov Universal Format）是 llama.cpp 专门设计的模型文件格式，针对快速加载和保存模型进行了优化，支持单文件部署，包含加载模型所需的所有信息，无需依赖外部文件。

1.安装cmake
CMake 是跨平台的构建工具，用于编译 llama.cpp 项目。

下载地址：https://cmake.org/download/

安装建议：

Windows 用户建议下载 cmake-3.x.x-windows-x86_64.msi 安装包
安装时选择 “Add CMake to the system PATH”，以便在命令行中直接使用

验证安装：

cmake --version 2.安装llama.cpp ```bash git clone https://github.com/ggerganov/llama.cpp

convert_hf_to_gguf.py：HuggingFace 格式转 GGUF 的脚本
llama-quantize（或 quantize.exe）：量化工具
main（或 main.exe）：推理主程序
examples/：各种示例程序

3.编译

cd llama.cpp pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple pip install -r requirements/requirements-convert_hf_to_gguf.txt cmake -G "MinGW Makefiles" -DCMAKE_C_COMPILER=gcc -DCMAKE_CXX_COMPILER=g++ -B build cmake --build build --config Release

4.模型转换
将safetensors转换为gguf

 convert-hf-to-gguf.py D:\\Project\\2026\\llama3-lora-merge --outtype f16 --outfile D:\\Project\\2026\\my_llama3.gguf

参数说明：
D:\Project\2026\llama3-lora-merge：输入模型路径（包含 config.json 和权重文件的目录）
–outtype f16：输出类型，f16 表示半精度浮点数（16-bit），可选 f32（全精度）或 bf16
–outfile：输出 GGUF 文件路径

类型	精度	说明
`f32`	32-bit	全精度，文件最大，精度最高
`f16`	16-bit	半精度，平衡选择
`bf16`	16-bit	Brain Float，动态范围更大
`q8_0`	8-bit	直接量化为 8 位

6.进一步量化

 D:\Project\2026\test_llama3.cpp\llama.cpp\build\bin\Release quantize.exe D:\\Project\\2026\\my_llama3.gguf D:\\Project\\2026\\quantized_model.gguf q4_0

llama-quantize可执行文件来对模型进行进一步量化处理。量化可以帮助我们减少模型的大小，但是代价是损失了模型精度，也就是模型回答的能力可能有所下降。权衡以后我们可以选择合适的量化参数，保证模型的最大效益。
量化使用 q 表示存储权重的位数。位数越低，模型越小，速度越快，但精度损失越大。

量化类型	位宽	精度损失	适用场景	典型压缩率
`q2_k`	2-bit	高	极低资源环境，实验用途	~75%
`q3_k_s` / `q3_k_m` / `q3_k_l`	3-bit	中高	资源受限，可接受一定质量损失	~60%
`q4_0` / `q4_1`	4-bit	中	最常用，平衡大小与质量	~50%
`q4_k_s` / `q4_k_m`	4-bit	中	改进的 4-bit，质量更好	~50%
`q5_0` / `q5_1`	5-bit	低	较高质量要求	~40%
`q5_k_s` / `q5_k_m`	5-bit	低	改进的 5-bit	~40%
`q6_k`	6-bit	很低	接近原始质量	~35%
`q8_0`	8-bit	极低	几乎无损，文件较大	~25%
`f16`	16-bit	无	原始转换，未量化	0%

K-quant 说明：
后缀带 _k 的（如 q4_k_m）使用改进的量化算法
混合量化策略：对 attention 层使用更高精度，其他层使用较低精度
_s（small）、_m（medium）、_l（large）表示混合程度

【花雕学编程】Arduino BLDC 之使用6.5寸轮毂电机的智能动态跟随机器人底盘

基于Arduino与6.5寸轮毂电机的智能动态跟随机器人底盘，是一种将一体化高扭矩动力单元与实时感知决策系统深度融合的移动平台方案。该方案利用轮毂电机“轮内驱动”的紧凑特性，结合Arduino（或ESP32等兼容主控）的灵活控制能力，旨在实现对人、车或特定目标的平滑、抗扰、低延迟的伴随运动。一、主要特点一体化高扭矩动力架构直驱/准直驱结构：6.5寸轮毂电机将BLDC电机、行星减速器（常见速比1:10~1:30）、轮毂及轴承高度集成。省去了皮带、链条等中间传动环节，传动效率高（>85%），结构紧凑，底盘离地间隙低，重心稳。大扭矩低速特性：得益于内置减速，轮毂电机在低转速下可输出极大扭矩（峰值可达8~25 N·m），能轻松驱动30~80kg级底盘，具备良好的爬坡（<5°）和越障（过坎）能力，且低速运行平稳无顿挫。

WIN11必备！QTTabBar中文优化版保姆级安装教程（含常见问题解决）

WIN11效率革命：深度定制你的资源管理器，不止于多标签如果你和我一样，每天要在Windows的资源管理器里花费大量时间，那你一定对那种反复在层层文件夹中穿梭、找不到上一个窗口的体验深恶痛绝。系统自带的文件管理工具，就像一个功能简陋的毛坯房，勉强能用，但毫无效率与舒适度可言。尤其是升级到WIN11后，虽然界面更现代，但核心的文件管理逻辑依然停留在上个时代，对于追求效率的用户来说，这无疑是一种巨大的生产力损耗。这篇文章，就是为那些不愿忍受现状，但又不想投入过多精力去学习复杂新软件的WIN10/WIN11用户准备的。我们不讨论那些需要彻底改变操作习惯的“重型”第三方管理器，而是聚焦于一种更优雅、更无感的解决方案：增强你正在使用的资源管理器本身。今天的主角，是一个经过国内开发者精心“魔改”的经典工具——QTTabBar的中文优化版。它就像给你的文件管理器做了一次精装修，保留了熟悉的格局，却赋予了它全新的、高效的能力。接下来，我将带你从零开始，完成这次效率升级，并深入探讨如何根据你的习惯，将它调校成最趁手的工具。 1. 为什么选择增强，而非替换？在深入安装细节之前，我们有必要先

XILINX PCIE IP核详解、FPGA实现及仿真全流程（Virtex-7 FPGA Gen3 Integrated Block for PCI Express v4.3）

一、XILINX几种IP核区别传统系列芯片 IP核名称核心特点用户接口开发难度适用场景7 Series Integrated Block for PCI Express最基础的PCIe硬核，提供物理层和数据链路层AXI4-Stream TLP包最高，需处理TLP包需深度定制PCIe通信，对资源敏感的项目AXI Memory Mapped To PCI Express桥接IP，将PCIe接口转换为AXI接口AXI4内存映射中等，类似操作总线FPGA需主动读写主机内存，平衡效率与灵活性DMA/Bridge Subsystem for PCI Express (XDMA)集成DMA引擎，提供"一站式"解决方案AXI4 (另有AXI-Lite等辅助接口)最低，官方提供驱动高速数据批量传输（如采集卡），追求开发效率注意： 1.硬件平台限制：不同系列的Xilinx FPGA（如7系列、UltraScale、Versal）支持的PCIe代数和通道数可能不同。在选择IP核前，请务必确认您的FPGA型号是否支持所需的PCIe配置（

使用trae进行本地ai对话机器人的构建

前言在人工智能技术快速发展的今天，构建本地AI对话机器人已成为开发者和技术爱好者的热门选择。使用 trae可以高效地实现这一目标，确保数据隐私和响应速度。本文将详细介绍如何利用 Trae 搭建本地AI对话机器人，涵盖环境配置、模型加载、对话逻辑实现以及优化技巧，帮助读者从零开始构建一个功能完整的AI助手。本地化AI对话机器人的优势在于完全离线运行，避免网络延迟和数据泄露风险，同时支持自定义训练模型以适应特定场景需求。无论是用于个人助理、客服系统，还是智能家居控制，Trae 都能提供灵活的解决方案。获取api相关信息打开蓝耘进行登录，如果你是新人的话需要进行注册操作，输入你相关的信息就能进行注册成功在平台顶部导航栏可以看到Maas平台，点击进入模型广场来到模型广场可以看到很多的ai模型，比如就有我们的kimi k2模型点击进去可以看到kimi k2模型的相关信息，我们将模型的id进行复制，等会儿我们是要用到的 /maas/kimi/Kimi-K2-Instruct 并且这里还具有在线体验的功能，生成回答速度快 https://archive.

概述

Read more

【花雕学编程】Arduino BLDC 之使用6.5寸轮毂电机的智能动态跟随机器人底盘

WIN11必备！QTTabBar中文优化版保姆级安装教程（含常见问题解决）

XILINX PCIE IP核详解、FPGA实现及仿真全流程（Virtex-7 FPGA Gen3 Integrated Block for PCI Express v4.3）

使用trae进行本地ai对话机器人的构建