【AI】kimi2.5核心技术：注意力残差

优质文章学习记录

07 Apr 2026 — 6 min read

Attention Residuals 详解

Attention Residuals（注意力残差）是 Kimi 团队在 2026 年 3 月提出的一项突破性架构创新。它挑战了深度学习领域沿用十年的残差连接（Residual Connections）设计，用可学习的注意力机制取代了传统的固定权重加法，让模型的每一层都能智能地选择从前面的哪些层获取信息。

下面我从核心原理、生动举例和实际应用三个层面，为你系统拆解这项技术。

一、核心原理：为什么需要 Attention Residuals？

1. 传统残差连接的“隐痛”

自从 2015 年 ResNet 诞生以来，残差连接 y = x + f(x) 就成了几乎所有深度神经网络的标配。但它的信息聚合方式非常粗糙：把所有前面层的输出无差别地等权相加。

这带来了两个严重问题：

问题	表现	后果
信息稀释	浅层特征在向深层传递时，其相对贡献随深度线性衰减	第50层想用第2层的信息，但已被中间48层的信息层层冲淡
隐状态爆炸	深层模块需要输出更大模长的激活值来维持信号强度	数值不稳定，梯度分布不均，训练收敛困难

这就是论文中反复提到的 PreNorm 稀释问题（PreNorm dilution problem）。

2. 时间-深度对偶性：一个天才的类比

Kimi 团队发现了一个深刻的数学结构：网络的深度维度和序列的时间维度本质上是同构的。

“将注意力旋转 90°”——论文作者之一 Yulun Du

这句话的意思是：

横轴（时间/序列）：Transformer 用注意力机制让每个 token 去关注序列中任意位置的 token，解决了 RNN 的遗忘问题
纵轴（深度）：为什么不让每一层去关注前面任意层的输出，解决残差连接的稀释问题？

既然注意力机制在横向上解决了 RNN 的问题，旋转 90° 放到纵向上，同样有效。

3. Attention Residuals 的数学形式

4. Block AttnRes：工程落地的关键

Full AttnRes 理论上完美，但在大规模训练中面临内存和通信开销爆炸的问题——每一层都需要访问所有前面层的输出。

Kimi 团队的解决方案是 Block AttnRes：

策略	做法	效果
分块压缩	将 L 层网络分成 N 个 Block（每个约 6 层），Block 内部沿用传统残差，Block 之间使用注意力	内存开销从 O(L) 降至 O(N)
跨阶段缓存	在流水线并行中只传输新增的块数据	训练额外开销 < 4%
两阶段计算	将块内所有层的查询打包成一次矩阵运算	推理延迟增加 < 2%

实验发现，N ≈ 8 个块就能获得 Full AttnRes 绝大部分性能增益。

二、举例说明：用数学学习路径来类比

设想一个人的数学学习路径：

阶段	册数	内容
小学数学	6 册	加减乘除、分数小数
中学数学	3 册	代数、几何基础
高中数学	3 册	函数、解析几何
高等数学	2 册	微积分、线性代数

学习完成后，需要用全部 14 册的知识解决现实问题。

机制	类比做法	效果
Standard Residual	把 14 册书的知识点等量混合后使用	高等数学的重要知识被稀释，解决问题效果差
Full AttnRes	按权重分配：高等数学最多，高中数学次之，小学最少	解决问题时更多使用高等数学，效果更好
Block AttnRes	先把每个阶段整理成摘要，再按权重使用各阶段的摘要	既高效又保留关键信息

这个类比很直观地解释了：为什么让模型学会“选择性关注”比“照单全收”更有效。

三、应用场景与实测效果

1. 训练效率：1.25 倍计算杠杆

在 Kimi Linear 48B 模型上（总参数 48B，激活参数 3B），实验结果表明：

指标	效果
计算效率	同等验证损失下，Block AttnRes 相当于传统模型用 1.25 倍算力才能达到的效果
训练开销	端到端训练耗时增加 < 4%
推理延迟	增加 < 2%

2. 下游任务：推理密集型任务提升显著

在 15 项主流评测基准中，Block AttnRes 均达到或超过基线模型：

任务类型	评测基准	提升幅度
科学推理	GPQA-Diamond	+7.5%
数学推理	Minerva Math	+3.6%
代码生成	HumanEval	+3.1%
知识理解	MMLU	+1.1%

值得注意的是，推理密集型任务（GPQA、数学、代码）提升最显著——这正是需要模型“深挖”能力的地方，与 Attention Residuals 的设计目标高度吻合。

3. 训练稳定性：梯度分布更均匀

从训练过程观察：

现象	传统残差	Attention Residuals
输出量级	随深度单调增长（逐层放大）	在每个 Block 边界重置，呈周期性模式
梯度分布	早期层梯度过大，分布极不均匀	显著更均匀，更多层真正参与学习

4. 行业反响与未来方向

这项技术发布后，获得了多位 AI 领域顶尖人物的高度评价：

马斯克：“Impressive work from Kimi”（令人印象深刻的工作）
Jerry Tworek（OpenAI o1 主要发明者）：“深度学习 2.0 时代即将到来”
Andrej Karpathy（OpenAI 创始成员）：“我们对‘Attention is All You Need’的理解还是片面了”

从更宏观的视角看，Kimi 创始人杨植麟在 GTC 2026 演讲中指出：“行业目前普遍使用的很多技术标准，本质上是八九年前的产物，正逐渐成为 Scaling 的瓶颈。” Attention Residuals 正是对残差连接这一“祖传地基”的重构，标志着大模型竞争正从数据与算力驱动，转向架构创新驱动的新阶段。

总结：Attention Residuals 核心价值一览

维度	核心突破
原理	用可学习的 Softmax 注意力权重，取代传统残差的固定等权加法
创新	发现“时间-深度对偶性”，将注意力机制“旋转 90°”应用到深度轴上
工程	Block AttnRes 分块策略，将开销控制在训练 <4%、推理 <2%
效果	1.25 倍计算效率提升，推理密集型任务（GPQA）提升 7.5%
意义	撬动了深度学习沿用十年的“祖传地基”，开启架构创新新阶段

【OpenClaw从入门到精通】第04篇：Web/TUI/钉钉全打通！OpenClaw多端交互实测指南（2026避坑版）

摘要：本文聚焦OpenClaw三大核心交互方式，针对新手“不知如何与AI助理沟通”的痛点，提供Web控制台、TUI终端、聊天软件（以钉钉为核心）的完整实操流程。Web控制台适配电脑端深度配置，TUI终端适合服务器远程维护，聊天软件满足手机端移动办公，三者协同实现“随时随地召唤AI”。文中包含2026实测的命令代码、配置步骤、问题排查方案，所有案例为虚拟构建，代码未上传GitHub，兼顾新手入门与进阶实操，帮助读者快速打通多端交互，最大化OpenClaw使用效率。优质专栏欢迎订阅！【DeepSeek深度应用】【Python高阶开发：AI自动化与数据工程实战】【YOLOv11工业级实战】【机器视觉：C# + HALCON】【大模型微调实战：平民级微调技术全解】【人工智能之深度学习】【AI 赋能：Python 人工智能应用实战】【数字孪生与仿真技术实战指南】【AI工程化落地与YOLOv8/v9实战】【C#工业上位机高级应用：高并发通信+性能优化】【Java生产级避坑指南：高并发+性能调优终极实战】【Coze搞钱实战：零代码打造吸金AI助手】

NestJS 核心揭秘：InstanceWrapper 的艺术与前端缓存新思路

文章目录 * 概述 * 第一部分：深入幕后——NestJS 的“实例管家” InstanceWrapper * 一、核心职责：不止于封装 * 二、关键属性解构（增强版） * 三、一个实例的生命旅程 * 第二部分：灵感跨界——构建前端页面的“InstanceWrapper”缓存层 * 一、设计哲学：前端数据包装器 * 二、定义我们的“前端 InstanceWrapper” * 三、实现缓存管理器与 React Hook * 四、使用场景示例 * 总结。概述在 NestJS 构建的精密后端世界里，依赖注入（DI）是其生命线。而在这条生命线的核心，有一个默默无闻却至关重要的角色——InstanceWrapper。它不仅是 NestJS 容器中的“实例管家”，更是整个框架实现高效、

Qwen3-VL-WEBUI实时流处理：视频动态理解部署教程

Qwen3-VL-WEBUI实时流处理：视频动态理解部署教程 1. 引言随着多模态大模型的快速发展，视觉-语言理解能力正从静态图像识别迈向复杂视频内容的动态推理与交互式任务执行。阿里云最新推出的 Qwen3-VL-WEBUI 正是这一趋势下的重要实践工具——它不仅集成了迄今为止 Qwen 系列最强大的视觉语言模型 Qwen3-VL-4B-Instruct，还通过 WebUI 提供了直观、可交互的部署入口，特别适用于实时视频流处理与动态理解场景。在实际应用中，诸如智能监控分析、自动化操作代理（Agent）、教育视频内容解析等需求，都要求模型具备对长时间视频序列的理解能力和精准的时间语义定位能力。而 Qwen3-VL-WEBUI 借助其增强的架构设计和内置优化，使得开发者无需深入底层即可快速实现这些高阶功能。本文将围绕 Qwen3-VL-WEBUI 的部署流程、核心能力解析以及如何实现视频流的实时动态理解展开，提供一套完整可落地的技术方案，帮助你从零开始构建一个支持视频输入、时间戳对齐、事件识别与自然语言响应的多模态系统。 2. 技术背景与选型价值 2.1 Qwen

Day 5 | OpenClaw 多 Agent 路由：一个 Gateway 托管多个 AI 大脑

Day 5 | OpenClaw 多 Agent 路由：一个 Gateway 托管多个 AI 大脑系列：《从 0 到 1 拆解 AI Agent 框架：OpenClaw 技术深度解析》前言想象一个场景：你有一个个人助手 Agent，同时你还部署了一个专门处理代码审查的 Agent，以及一个管理家庭自动化的 Agent。它们需要接入同一个 Telegram 账号，但各自有独立的"大脑"和记忆。这就是多 Agent 路由要解决的问题：一个 Gateway，多个 AI 大脑，消息如何精准投递？路由看起来简单，