AI: 介绍微软 BitNet 下载、安装、使用说明

优质文章学习记录

11 Apr 2026 — 8 min read

Microsoft BitNet 下载、安装与使用指南

BitNet 是微软公司开源的 1-bit 大语言模型推理框架，最大的特点是仅用 CPU 就能高效运行大模型，内存占用极低。以下是完整的安装和使用教程。

📋 一、环境要求

依赖项	版本要求	说明
Python	≥ 3.9	推荐使用 conda 管理环境
CMake	≥ 3.22	构建系统
Clang	≥ 18	编译器
Git	任意版本	克隆仓库，需支持 `--recursive`

各操作系统具体要求

Windows：需安装 Visual Studio 2022，并勾选以下组件：

桌面开发与 C++
C++ 的 CMake 工具
Windows 的 Git
C++ 的 Clang 编译器
LLVM-Toolset (clang) 的 MS-Build 支持

Debian/Ubuntu：可用自动脚本安装 Clang：

bash-c"$(wget-O - https://apt.llvm.org/llvm.sh)"

macOS：通过 Homebrew 安装 CMake：

brew install cmake

🚀 二、快速开始（5 分钟上手）

1. 克隆仓库

git clone --recursive https://github.com/microsoft/BitNet.git cd BitNet

⚠️ 必须使用 --recursive 参数，否则子模块不会自动下载。

2. 创建 Python 环境并安装依赖

# 创建 conda 环境（推荐） conda create -n bitnet-cpp python=3.9 conda activate bitnet-cpp # 安装 Python 依赖 pip install-r requirements.txt

3. 下载模型并构建项目

最简单的方式是用 setup_env.py 一键完成模型下载、格式转换和编译：

# 以 Falcon3-7B 模型为例 python setup_env.py --hf-repo tiiuae/Falcon3-7B-Instruct-1.58bit -q i2_s

也可手动下载模型后再构建：

# 下载模型 huggingface-cli download microsoft/BitNet-b1.58-2B-4T-gguf --local-dir models/BitNet-2B # 构建 python setup_env.py -md models/BitNet-2B -q i2_s

4. 运行推理

# 对话模式 python run_inference.py -m models/BitNet-2B/ggml-model-i2_s.gguf -p"你是一个 helpful assistant"-cnv

🛠️ 三、各平台详细安装说明

Windows 用户必读：构建坑点及解决方案

根据社区反馈，Windows 上编译 BitNet 需要特别注意两个问题：

问题 1：缺少头文件引用

部分上游 llama.cpp 文件存在 bug，需手动修复 4 个文件，在头部添加 #include <chrono>：

3rdparty/llama.cpp/common/common.cpp
3rdparty/llama.cpp/common/log.cpp
3rdparty/llama.cpp/examples/imatrix/imatrix.cpp
3rdparty/llama.cpp/examples/perplexity/perplexity.cpp

问题 2：conda 环境无法使用 clang 构建

需要加载 Visual Studio 的开发者环境：

# 1. 加载 DevShell 模块Import-Module"C:\Program Files\Microsoft Visual Studio\2022\Professional\Common7\Tools\Microsoft.VisualStudio.DevShell.dll"# 2. 获取 VS 实例 IDInstall-Module-Name VSSetup -Scope CurrentUser -Force Import-Module VSSetup Get-VSSetupInstance# 记录输出的 InstanceId# 3. 进入开发者环境（替换为你的 InstanceId）Enter-VsDevShell 6d25e4c3 -SkipAutomaticLocation -DevCmdArguments "-arch=x64 -host_arch=x64"# 4. 验证 clang 可用 clang -v

Linux / macOS 用户

Linux 流程相对顺畅，按上述"快速开始"步骤即可。若在 macOS 上遇到问题，确保：

# 确认 CMake 已安装 brew install cmake # 更新子模块git submodule update --init--recursive

不想折腾？用 Docker 一键运行

社区已有人制作了 Docker 镜像，省去所有环境配置：

git clone https://github.com/ahfuzhang/BitNet.git cd BitNet docker build -t local-bitnet:latest .

运行推理：

# 单次问答docker run --rm-it --cpuset-cpus="8"-m 512m local-bitnet:latest \ python3 run_inference.py -m models/BitNet-b1.58-2B-4T/ggml-model-i2_s.gguf \-t1-c4096-n1024-temp0.7-p"什么是 1-bit 模型？"# 对话模式docker run --rm-it --cpuset-cpus="8"-m 512m local-bitnet:latest \ python3 run_inference.py -m models/BitNet-b1.58-2B-4T/ggml-model-i2_s.gguf \-t1-c4096-n1024-temp0.7-p""-cnv

💡 仅需 512MB 内存 + 1 个 CPU 核心 就能流畅运行 20 亿参数模型。

📊 四、推理命令详解

基础命令格式

python run_inference.py -m<模型路径>-p<提示词>[选项]

常用参数说明

参数	简写	说明	默认值
`--model`	`-m`	模型文件路径（.gguf 文件）	必填
`--prompt`	`-p`	输入提示词	必填
`--n-predict`	`-n`	生成的最大 token 数	128
`--threads`	`-t`	CPU 线程数	2
`--ctx-size`	`-c`	上下文窗口大小	2048
`--temperature`	`-temp`	温度值（0~1，越高越随机）	0.8
`--conversation`	`-cnv`	开启对话交互模式	否

示例

# 生成 512 个 token，用 4 个线程，温度 0.7 python run_inference.py -m models/bitnet-model.gguf -p"写一首关于 AI 的诗"-n512-t4-temp0.7# 对话模式，上下文 4096 python run_inference.py -m models/bitnet-model.gguf -p""-cnv-c4096

📁 五、可用模型清单

所有模型均托管在 Hugging Face，可通过 setup_env.py 或 huggingface-cli 下载：

模型名称	参数量	特点
`microsoft/BitNet-b1.58-2B-4T-gguf`	2.4B	低延迟聊天，适合入门
`microsoft/BitNet-b1.58-3B-gguf`	3B	平衡速度与质量
`HF1BitLLM/Llama3-8B-1.58-100B-tokens`	8B	基于 Llama3 的 1.58-bit 版本
`tiiuae/Falcon3-7B-Instruct-1.58bit`	7B	Falcon 架构，指令微调版

⚠️ 六、当前版本注意事项

BitNet 目前仍在快速迭代中，存在以下已知问题：

输出不稳定：可能出现重复词、循环输出或无意义内容
知识准确度：2B 小模型在复杂问答上表现有限
平台差异：macOS 下偶现随机异常输出
Windows 构建：需要额外修复和 VS 环境配置

这些都是开源社区正在解决的问题，随着版本更新会逐步改善。

📌 七、命令速查表

操作	命令
克隆仓库	`git clone --recursive https://github.com/microsoft/BitNet.git`
安装依赖	`pip install -r requirements.txt`
下载模型	`huggingface-cli download <模型ID> --local-dir models/<名称>`
一键构建	`python setup_env.py -md models/<名称> -q i2_s`
运行推理	`python run_inference.py -m <模型.gguf> -p "<提示词>"`
对话模式	添加 `-cnv` 参数
Docker 构建	`docker build -t local-bitnet:latest .`

如果遇到问题，建议优先查阅微软官方 GitHub 仓库的 Issues 页面，或尝试 Docker 方式避免环境差异带来的麻烦。

我的实践经验

git clone --recursive https://github.com/ahfuzhang/BitNet.git

git clone https://hf-mirror.com/microsoft/bitnet-b1.58-2B-4T-gguf

BitNet 目录 models/ model.safetensors 是大模型吗？有什么用？

是的，models/model.safetensors 是一个真正的大模型文件。它属于微软研究院开源的 BitNet b1.58 2B4T，一个拥有约 20亿 参数的原生1-bit大语言模型。(文件size: 1.09GB)

它的核心用途是用于AI模型的部署和推理，也就是加载这个文件后，你就可以让AI模型根据你的输入来生成文本、回答问题等。

为了更好地理解，我们需要先解释一下这个文件在BitNet模型中的特殊之处。

🤔 什么是 BitNet？它有什么特别？

BitNet是微软推出的一系列高效大模型。它的核心理念是"原生1-bit量化"。简单来说，它不是先训练一个巨大的模型再压缩，而是从零开始就用1.58-bit的精度进行训练。

你可以把传统的全精度模型想象成用高清4K摄像机拍摄一部电影，后期再压缩成1080p。而BitNet则是从一开始就用一种特殊的1080p格式来拍摄，虽然没有4K的原始素材，但最终成片体积小、省电，而且播放速度飞快。

这种设计的直接好处体现在极致的计算效率上：

内存占用极小：相比同规模的传统模型（如LLaMA、Qwen等），它的内存占用能降低数倍。例如，一个约20亿参数的BitNet模型，其权重仅需约0.4GB内存。
推理速度快：尤其在CPU上，它的解码速度非常快，比许多同尺寸模型快2-6倍。
能耗极低：根据微软的测试，其能耗仅为传统模型的十分之一左右。

💡 如何正确使用 `model.safetensors`？

关于使用，有一个非常重要的提示：

使用方法	优点	缺点 / 注意事项
使用专用框架 (推荐)	这是唯一能发挥BitNet效率优势的方式。能获得极低的内存占用、超快的推理速度和极低的能耗。	需要一些命令行操作来配置和运行。
使用通用库 (不推荐)	代码非常熟悉，几行Python代码就能加载模型，适合快速测试。	无法获得任何效率优势。推理速度慢，内存占用高，甚至可能比同尺寸的传统模型更慢。

简单来说，如果你想体验BitNet“小而快”的特点，必须使用bitnet.cpp这个官方推理框架。如果只是用普通的transformers库加载，它就和任何其他普通模型没有区别，甚至更慢。

🚀 快速上手指南

如果你想体验BitNet的高效，可以参考以下步骤：

获取专用推理框架：BitNet官方提供了名为bitnet.cpp的推理框架，这是运行模型的关键。你需要从GitHub上克隆并编译它。
准备模型文件：model.safetensors文件需要配合config.json（模型架构）、tokenizer.json（分词器）等文件一起使用。最简单的办法是直接从Hugging Face模型库下载整个目录。

运行推理：使用框架提供的脚本，指定模型路径和你的问题，即可开始对话。例如：

python run_inference.py -m /你的模型路径/models/model.safetensors -p"你好，请介绍一下自己"-cnv

因此，models/model.safetensors是一个采用前沿技术、主打极致高效的大模型文件。要体验它的真正实力，记得配合专用的bitnet.cpp框架来使用。

AI: 介绍微软 BitNet 下载、安装、使用说明

优质文章学习记录

Microsoft BitNet 下载、安装与使用指南

📋 一、环境要求

各操作系统具体要求

🚀 二、快速开始（5 分钟上手）

1. 克隆仓库

2. 创建 Python 环境并安装依赖

3. 下载模型并构建项目

4. 运行推理

🛠️ 三、各平台详细安装说明

Windows 用户必读：构建坑点及解决方案

Linux / macOS 用户

不想折腾？用 Docker 一键运行

📊 四、推理命令详解

基础命令格式

常用参数说明

示例

📁 五、可用模型清单

⚠️ 六、当前版本注意事项

📌 七、命令速查表

我的实践经验

BitNet 目录 models/ model.safetensors 是大模型吗？有什么用？

🤔 什么是 BitNet？它有什么特别？

💡 如何正确使用 `model.safetensors`？

🚀 快速上手指南

Read more

当AI成为开发伙伴，我们的代码架构该向何处去？

LLaMA Factory 从入门到精通，一篇讲完

语音识别技术新突破：Whisper模型本地部署完全指南

小白也能玩转AI写作！Qwen3-4B-Instruct保姆级教程

Microsoft BitNet 下载、安装与使用指南

📋 一、环境要求

各操作系统具体要求

🚀 二、快速开始（5 分钟上手）

1. 克隆仓库

2. 创建 Python 环境并安装依赖

3. 下载模型并构建项目

4. 运行推理

🛠️ 三、各平台详细安装说明

Windows 用户必读：构建坑点及解决方案

Linux / macOS 用户

不想折腾？用 Docker 一键运行

📊 四、推理命令详解

基础命令格式

常用参数说明

示例

📁 五、可用模型清单

⚠️ 六、当前版本注意事项

📌 七、命令速查表

我的实践经验

BitNet 目录 models/ model.safetensors 是大模型吗？有什么用？

🤔 什么是 BitNet？它有什么特别？

💡 如何正确使用 model.safetensors？

🚀 快速上手指南

Read more

当AI成为开发伙伴，我们的代码架构该向何处去？

LLaMA Factory 从入门到精通，一篇讲完

语音识别技术新突破：Whisper模型本地部署完全指南

小白也能玩转AI写作！Qwen3-4B-Instruct保姆级教程

💡 如何正确使用 `model.safetensors`？