【AI】kimi2.5核心技术:注意力残差
Attention Residuals 详解
Attention Residuals(注意力残差)是 Kimi 团队在 2026 年 3 月提出的一项突破性架构创新。它挑战了深度学习领域沿用十年的残差连接(Residual Connections)设计,用可学习的注意力机制取代了传统的固定权重加法,让模型的每一层都能智能地选择从前面的哪些层获取信息。
下面我从核心原理、生动举例和实际应用三个层面,为你系统拆解这项技术。
一、核心原理:为什么需要 Attention Residuals?
1. 传统残差连接的“隐痛”
自从 2015 年 ResNet 诞生以来,残差连接 y = x + f(x) 就成了几乎所有深度神经网络的标配。但它的信息聚合方式非常粗糙:把所有前面层的输出无差别地等权相加。
这带来了两个严重问题:
| 问题 | 表现 | 后果 |
|---|---|---|
| 信息稀释 | 浅层特征在向深层传递时,其相对贡献随深度线性衰减 | 第50层想用第2层的信息,但已被中间48层的信息层层冲淡 |
| 隐状态爆炸 | 深层模块需要输出更大模长的激活值来维持信号强度 | 数值不稳定,梯度分布不均,训练收敛困难 |
这就是论文中反复提到的 PreNorm 稀释问题(PreNorm dilution problem)。
2. 时间-深度对偶性:一个天才的类比
Kimi 团队发现了一个深刻的数学结构:网络的深度维度和序列的时间维度本质上是同构的。
“将注意力旋转 90°”——论文作者之一 Yulun Du
这句话的意思是:
- 横轴(时间/序列):Transformer 用注意力机制让每个 token 去关注序列中任意位置的 token,解决了 RNN 的遗忘问题
- 纵轴(深度):为什么不让每一层去关注前面任意层的输出,解决残差连接的稀释问题?
既然注意力机制在横向上解决了 RNN 的问题,旋转 90° 放到纵向上,同样有效。
3. Attention Residuals 的数学形式

4. Block AttnRes:工程落地的关键
Full AttnRes 理论上完美,但在大规模训练中面临内存和通信开销爆炸的问题——每一层都需要访问所有前面层的输出。
Kimi 团队的解决方案是 Block AttnRes:
| 策略 | 做法 | 效果 |
|---|---|---|
| 分块压缩 | 将 L 层网络分成 N 个 Block(每个约 6 层),Block 内部沿用传统残差,Block 之间使用注意力 | 内存开销从 O(L) 降至 O(N) |
| 跨阶段缓存 | 在流水线并行中只传输新增的块数据 | 训练额外开销 < 4% |
| 两阶段计算 | 将块内所有层的查询打包成一次矩阵运算 | 推理延迟增加 < 2% |
实验发现,N ≈ 8 个块就能获得 Full AttnRes 绝大部分性能增益。
二、举例说明:用数学学习路径来类比
设想一个人的数学学习路径:
| 阶段 | 册数 | 内容 |
|---|---|---|
| 小学数学 | 6 册 | 加减乘除、分数小数 |
| 中学数学 | 3 册 | 代数、几何基础 |
| 高中数学 | 3 册 | 函数、解析几何 |
| 高等数学 | 2 册 | 微积分、线性代数 |
学习完成后,需要用全部 14 册的知识解决现实问题。
| 机制 | 类比做法 | 效果 |
|---|---|---|
| Standard Residual | 把 14 册书的知识点等量混合后使用 | 高等数学的重要知识被稀释,解决问题效果差 |
| Full AttnRes | 按权重分配:高等数学最多,高中数学次之,小学最少 | 解决问题时更多使用高等数学,效果更好 |
| Block AttnRes | 先把每个阶段整理成摘要,再按权重使用各阶段的摘要 | 既高效又保留关键信息 |
这个类比很直观地解释了:为什么让模型学会“选择性关注”比“照单全收”更有效。
三、应用场景与实测效果
1. 训练效率:1.25 倍计算杠杆
在 Kimi Linear 48B 模型上(总参数 48B,激活参数 3B),实验结果表明:
| 指标 | 效果 |
|---|---|
| 计算效率 | 同等验证损失下,Block AttnRes 相当于传统模型用 1.25 倍算力才能达到的效果 |
| 训练开销 | 端到端训练耗时增加 < 4% |
| 推理延迟 | 增加 < 2% |
2. 下游任务:推理密集型任务提升显著
在 15 项主流评测基准中,Block AttnRes 均达到或超过基线模型:
| 任务类型 | 评测基准 | 提升幅度 |
|---|---|---|
| 科学推理 | GPQA-Diamond | +7.5% |
| 数学推理 | Minerva Math | +3.6% |
| 代码生成 | HumanEval | +3.1% |
| 知识理解 | MMLU | +1.1% |
值得注意的是,推理密集型任务(GPQA、数学、代码)提升最显著——这正是需要模型“深挖”能力的地方,与 Attention Residuals 的设计目标高度吻合。
3. 训练稳定性:梯度分布更均匀
从训练过程观察:
| 现象 | 传统残差 | Attention Residuals |
|---|---|---|
| 输出量级 | 随深度单调增长(逐层放大) | 在每个 Block 边界重置,呈周期性模式 |
| 梯度分布 | 早期层梯度过大,分布极不均匀 | 显著更均匀,更多层真正参与学习 |
4. 行业反响与未来方向
这项技术发布后,获得了多位 AI 领域顶尖人物的高度评价:
- 马斯克:“Impressive work from Kimi”(令人印象深刻的工作)
- Jerry Tworek(OpenAI o1 主要发明者):“深度学习 2.0 时代即将到来”
- Andrej Karpathy(OpenAI 创始成员):“我们对‘Attention is All You Need’的理解还是片面了”
从更宏观的视角看,Kimi 创始人杨植麟在 GTC 2026 演讲中指出:“行业目前普遍使用的很多技术标准,本质上是八九年前的产物,正逐渐成为 Scaling 的瓶颈。” Attention Residuals 正是对残差连接这一“祖传地基”的重构,标志着大模型竞争正从数据与算力驱动,转向架构创新驱动的新阶段。
总结:Attention Residuals 核心价值一览
| 维度 | 核心突破 |
|---|---|
| 原理 | 用可学习的 Softmax 注意力权重,取代传统残差的固定等权加法 |
| 创新 | 发现“时间-深度对偶性”,将注意力机制“旋转 90°”应用到深度轴上 |
| 工程 | Block AttnRes 分块策略,将开销控制在训练 <4%、推理 <2% |
| 效果 | 1.25 倍计算效率提升,推理密集型任务(GPQA)提升 7.5% |
| 意义 | 撬动了深度学习沿用十年的“祖传地基”,开启架构创新新阶段 |