大模型显存占用详解：单卡训练与推理 | 极客日志

PythonAI算法

大模型显存占用详解：单卡训练与推理

本文系统分析了大模型在单卡训练与推理场景下的显存占用机制。涵盖数据精度对存储的影响，混合精度训练中权重、梯度、优化器及激活值的显存分配逻辑。详细阐述了推理阶段 KV Cache 的计算方式及其在 MQA/GQA 架构下的优化策略。同时对比了全参微调与 LoRA、QLoRA 等高效参数微调方法的显存差异，提供了具体的估算公式与实例，帮助开发者准确评估资源需求并优化模型部署。

字节跳动发布于 2025/2/7更新于 2026/4/190 浏览

大模型显存占用详解：单卡训练与推理

数据精度

想要计算显存，从'原子'层面来看，就需要知道我们的使用数据的精度，因为精度代表了数据存储的方式，决定了一个数据占多少 bit。

我们都知道：

1 byte = 8 bits 1 KB = 1,024 bytes 1 MB = 1,024 KB 1 GB = 1,024 MB

由此可以明白，一个含有 1G 参数的模型，如果每一个参数都是 32bit（4byte），那么直接加载模型就会占用 4x1G 的显存。

（1）常见的几种精度类型

个人认为只需掌握下图几个常见的数据类型就好，对于更多的精度类型都是可以做到触类旁通发，图源英伟达安培架构白皮书：

各种精度的数据结构

各种精度的数据结构

可以非常直观地看到，浮点数主要是由符号位（sign）、指数位（exponent）和小数位（mantissa）三部分组成。

符号位都是 1 位（0 表示正，1 表示负），指数位影响浮点数范围，小数位影响精度。

其中 TF32 并不是有 32bit，只有 19bit 不要记错了。BF16 指的是 Brain Float 16，由 Google Brain 团队提出。

（2）具体计算例子

讲太多不如一个形象的图片或者例子来得直接，下面我们将通过一个例子来深入理解如何通过这三个部分来得到我们最终的数据。

我以 BF16，如今业界用的最广泛的精度类型来举个栗子，下面的数完全是我用 AI 工具随机画的：

题目：

随机生成的 BF16 精度数据

先给出具体计算公式：

计算公式

然后 step by step 地分析。

符号位 Sign = 1，代表是负数。

符号位

最终结果：三个部分乘起来就是最终结果 -8.004646331359449e-34。

注意事项：中间唯一需要注意的地方就是指数位是的全 0 和全 1 状态是特殊情况，不能用公式。

02 全参训练和推理的显存分析

我们知道了数据精度对应存储的方式和大小，相当于我们了解了工厂里不同规格的机器零件，但我们还需要了解整个生产线的运作流程，我们才能准确估算出整个工厂（也就是我们的模型训练过程）在运行时所需的资源（显存）。

那么就以目前最常见的混合精度训练方法作为参考，来看一看显存都去哪了。

（1）混合精度训练

原理介绍

顾名思义，混合精度训练就是将多种不同的精度数据混合在一起训练，《MIXED PRECISION TRAINING》这篇论文里将 FP16 和 FP32 混合，优化器用的是 Adam，如下图所示：

极客日志微信公众号二维码

更多推荐文章

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online