21m/s！UZH RPG组T-RO新作AC-MPC：微分MPC赋能强化学习，实现超人级无人机竞速

优质文章学习记录

06 Apr 2026 — 11 min read

「MPC+RL」

1.训练效率与极限性能：学得更快，飞得更猛

2.鲁棒性：无惧风扰与参数偏差

3.可解释性：打开 RL 的黑盒

4.真实世界部署：零样本迁移的 21m/s

03 总结

在机器人控制领域，长期存在着模型驱动（MPC）与数据驱动（RL）的路线之争。前者理论完备但依赖人工调参，后者探索力强却受困于黑盒不可解释性。苏黎世大学 RPG 组的这项 T-RO 最新工作，为这一争论提供了一个优雅的融合解。

论文提出的 AC-MPC 架构，创造性地将可微 MPC嵌入到 Actor-Critic 框架的策略网络末端。这不仅让无人机跑出了 21m/s 的超人级速度，更重要的是解决了两大痛点：

1. 鲁棒性突破：利用 MPC 内置的动力学先验，算法在面对风扰和模型参数失配等 OOD场景时，展现出了纯神经网络无法比拟的稳定性。

2. 理论可解释性：论文通过实证分析揭示了一个惊人的数学联系，Critic 网络学到的 Value Function 的 Hessian 矩阵，与 MPC 学到的 Cost 矩阵高度相关。这意味着 RL 真正学会了控制成本的二阶曲率，打通了价值函数与优化目标之间的壁垒。

这篇文章不仅是工程上的胜利，更是对学习型控制（Learning-based Control）内部机理的一次精彩剖析。

图1| MPC与RL对比图

01 主要方法

论文提出了一种将模型预测控制（MPC）作为可微层嵌入到强化学习（RL）Actor-Critic框架中的新方法。其核心思想并非用神经网络直接输出控制量，而是让神经网络学习当前状态下最优的控制目标是什么，然后交由内置动力学模型的MPC求解器去计算具体的控制指令。

1. 整体架构：RL决策 + MPC执行

传统RL直接从观测映射到动作，缺乏物理约束；传统MPC依赖人工设计的Cost Function，难以适应复杂任务。AC-MPC结合两者：Critic网络负责长期的价值评估，Actor网络被拆解为神经代价图（Neural Cost Map）和“可微MPC（Differentiable MPC）两部分。

图2| AC-MPC 架构图解。与传统RL不同，AC-MPC的Actor网络并不直接输出动作。它首先通过一个神经网络预测出当前最优的二次型代价函数参数，然后将这些参数连同当前状态输入到一个可微MPC层中。该层利用四旋翼动力学模型求解优化问题，最终输出满足物理约束的控制指令。

2. Actor设计：学习代价而非动作

AC-MPC 的 Actor 不直接学习控制策略，而是学习一个从观测到 MPC 代价函数的映射。具体流程为 Actor 接收当前观测（如状态、赛道门位置），输出定义 MPC 优化目标的二次型参数

和

。这相当于让 Actor 在每一时刻动态调整 MPC 的优化目标。

在获得 Actor 输出的二次型参数后，AC-MPC 通过求解以下最优控制问题来生成动作。由于 AC-MPC 可微，该 Actor 的输出支持梯度反向传播。优化目标公式如下：

$ J_{QP}(x) = \sum_{k=0}^{N} \left( \begin{bmatrix} x_k \\ u_k \end{bmatrix}^T Q_k(s) \begin{bmatrix} x_k \\ u_k \end{bmatrix} + p_k(s)^T \begin{bmatrix} x_k \\ u_k \end{bmatrix} \right) $

其中，

是 Actor 的观测输入，

和

是神经网络的输出，

分别是系统状态和控制动作，满足动力学约束

。

最终的控制动作为 MPC 的最优解，为了实现充分探索，AC-MPC 在训练阶段会叠加高斯噪声，在部署阶段则直接执行 MPC 解。

3. Critic设计与模型预测价值扩展

为了进一步提高采样效率，论文引入了模型预测价值扩展（MPVE）技术。由于MPC求解器会预测未来 H 步的状态序列，这些预测信息被用来辅助Critic的学习，减少对真实环境采样的依赖，并缓解价值估计的方差。MPVE的价值估计公式如下：

$\hat{V}(s_0) = \sum_{t=0}^{H-1} \gamma^t \hat{r}(s_t, u_t) + \gamma^H V_\omega(\hat{s}_H)$

其中，

和

来自 MPC 内部模型的预测，而非环境交互。这种设计使得 Critic 能更准确地评估当前策略的长期价值，同时利用 MPC 的预测能力加速训练收敛。

图3| 价值函数与飞行轨迹可视化。图中颜色代表Critic网络评估的价值（黄色为高价值区）。可以看到，AC-MPC学到的价值函数就像一个势能场，引导无人机穿越赛道门。当无人机穿过一个门后，高价值区域会迅速切换指向下一个门，体现了Critic通过学习Cost Function实现了类似离散模式切换的高级决策能力。

02 实验结果

论文在仿真环境和真实世界中进行了广泛的验证，不仅证明了 AC-MPC 能达到与 SOTA 强化学习同等的超人级速度，更在鲁棒性和数据效率上展现了压倒性优势。

1.训练效率与极限性能：学得更快，飞得更猛

在无人机竞速任务中，AC-MPC 展现了极高的采样效率。特别是在高难度的 SplitS（垂直S弯）和 Vertical（垂直飞行）赛道中，AC-MPC 能够利用 MPC 内部的动力学先验，比纯神经网络（AC-MLP）更快地收敛到高分奖励区域。此外，在控制指令层面，AC-MPC 能够更一致地触及无人机的物理极限（如推力饱和），通过极致地压榨性能来实现时间最优飞行。

图4| 推力指令饱和度对比。AC-MPC（橙线）能够持续且稳定地将推力打到最大值（饱和），充分利用无人机的物理性能；而 AC-MLP（绿线）的推力输出则显得犹豫和波动，难以维持极限飞行。

图5| 不同赛道下的训练曲线对比。在简单的水平赛道（左）上两者表现相当；但在高难度的垂直赛道（中）和 SplitS 赛道（右）中，AC-MPC（蓝/黄线）凭借动力学先验，展现出了比 AC-MLP（红线）更高的采样效率和最终性能上限。

2.鲁棒性：无惧风扰与参数偏差

由于MPC具有较强的抗扰动能力，即使面对在训练中未见过的强风干扰，或者无人机自身的质量、惯量发生巨大变化时，AC-MPC 依然能保持极高的成功率，而无需重新训练。

图6| 抗干扰能力可视化。(A) 在垂直飞行中施加 1.5 倍重力的侧向风扰。纯 RL 方法（AC-MLP）和传统 MPC 均告坠毁，只有自适应 L1-MPC 和本文的 AC-MPC 成功穿越，且 AC-MPC 速度更快。(B) 面对初始位置的随机变化，AC-MPC（中）的轨迹一致性显著优于 AC-MLP（左）。

图7| 动力学参数泛化测试。在未重新训练的情况下，测试不同质量（Mass）和转动惯量（Inertia）下的飞行成功率。红线为训练时的标称值。可以看到，AC-MPC（橙线）在参数大幅偏离标称值时仍能保持近 100% 的成功率，而 AC-MLP（蓝线）则迅速崩溃。

3.可解释性：打开 RL 的黑盒

除性能验证外，论文还深入探究了Critic 网络到底学到了什么。通过线性探测实验，作者发现 Critic 网络学到的价值函数的 Hessian 矩阵，与 Actor 网络学到的 MPC 代价矩阵高度相关。这证明了 RL 确实学到了符合物理直觉的控制代价。

图8| 价值函数与 MPC 代价矩阵的关联性分析。(A) 预测的 Q 矩阵与真实的 Q 矩阵高度吻合，说明 Critic 深刻理解了控制任务的代价结构。(B) 3D 视图下，MPC 的代价函数曲面（上）与 Critic 的价值函数曲面（下）形状惊人一致，验证了两者在数学本质上的统一性。

4.真实世界部署：零样本迁移的 21m/s

最终，基于 AC-MPC 训练好的策略在无任何处理的情况下，通过零样本迁移直接部署在真实的竞速无人机上。在复杂的 SplitS 赛道中，AC-MPC 达到了 21m/s 的峰值速度，不仅追平了 SOTA 的纯 RL 方法，更证明了该架构在现实物理世界中的可行性与安全性。

图9| 真实世界飞行轨迹。AC-MPC 在圆形赛道（左）和 SplitS 赛道（右）的真实飞行数据（实线）与仿真数据（虚线）高度重合。AC-MPC在真实环境中跑出了 21m/s 的峰值速度，实现了从仿真到现实的完美复刻。

03 总结

UZH RPG组的 AC-MPC 工作提出了一种将可微MPC无缝嵌入到Actor-Critic 强化学习框架的全新范式。该方法打破了传统学习动作的桎梏，转而让策略网络学习 MPC 的内部代价函数，从而在保留 RL 强大探索与端到端优化能力的同时，充分利用了物理模型处理约束和动态规划的优势。

实验证明，AC-MPC 不仅在真实世界无人机竞速中实现了与 SOTA 纯 RL 方法持平的 21m/s 超人级速度，更在抗风扰和参数泛化等非分布场景下展现出压倒性的鲁棒性，为机器人从仿真到现实的零样本迁移提供了一条可解释且高效的新路径。

论文题目：Actor-Critic Model Predictive Control: Differentiable Optimizationmeets Reinforcement Learning for Agile Flight

论文作者：Angel Romero, Elie Aljalbout, Yunlong Song, Davide Scaramuzza

论文地址：https://ieeexplore.ieee.org/document/11301631

代码地址：https://github.com/uzh-rpg/acmpc public

普通人 72 小时搭建 AI 军团：我指挥了一支硅基团队，效率提升了 10 倍

当 AI 不再是工具，而是你的数字员工。 01 一个金融男的 GitHub 榜单奇迹 2026年 2 月，OpenClaw 项目贡献者榜单上出现了一个奇怪的名字。在 19 万颗星、全球顶尖工程师云集的开源项目中，一个从没写过一行代码的金融从业者，竟然杀入了前 30 名。他叫杨天润，本科研究生都是金融学，毕业后一直在做并购投资。甚至在几天前，他才搞清楚什么是 PR（Pull Request）。但他用 72 小时完成了一个传统程序员团队需要数周才能做到的事：修复了一个复杂的多智能体协调 bug，提交了多个高质量代码合并请求，甚至搭建了一个可视化的 Agent 监控平台。更令人震惊的是，他没有写一行代码。他只是像 CEO 一样，坐在电脑前，对他组建的三个 AI 下属下达指令： * Echo（首席助理）：负责任务拆解和整体调度

Topaz Photo AI v1.3.3 汉化便携版：终极图片降噪与无损放大神器，一键修复模糊废片

在数码摄影日益普及的今天，我们手中的相机和手机虽然越来越强大，但依然无法完全避免拍摄失误。夜景噪点满满、手抖导致画面模糊、老旧照片分辨率低下……这些“废片”往往让我们痛心疾首。过去，想要修复这些问题需要精通复杂的Photoshop技巧，耗费数小时进行手动磨皮、降噪和锐化。而现在，随着人工智能技术的飞跃，Topaz Photo AI 应运而生，它被誉为目前市面上最强大的智能图片修复软件，能够以惊人的速度和质量，将模糊、噪点多的照片瞬间变为清晰大片。 Topaz Photo AI v1.3.3 汉化便携版。这是一个无需安装、无需登录、集成全部离线模型的“全能型”选手，专为追求高效与画质的摄影师及设计爱好者打造。无论您是专业修图师，还是只想简单优化朋友圈照片的普通用户，这款软件都将成为您不可或缺的得力助手。核心功能：三大AI引擎，重塑画质巅峰 Topaz Photo AI 并非简单的滤镜堆砌，它深度融合了 Topaz Labs 旗下三款传奇软件（

宏智树AI——ChatGPT学术版驱动，一站式论文写作智能解决方案

在学术创作日益精细化、规范化的今天，每一位科研学子、研究者都曾面临论文写作的多重困境：大纲难立、文献繁杂、数据难析、格式繁琐，耗费大量时间在机械性工作上，难以聚焦核心研究价值。宏智树AI应运而生，作为一款专为论文写作量身打造的学术写作辅助平台，依托ChatGPT学术版模型驱动，搭载先进AI5.0技术架构，构建起覆盖“大纲生成到定稿答辩”的全流程学术智能解决方案，重新定义学术创作效率与质量边界，让每一份学术成果都能高效落地、彰显专业。宏智树AI的核心竞争力，源于其深耕学术场景的技术沉淀与功能布局。不同于通用型AI写作工具，平台以ChatGPT学术版为核心驱动，结合AI5.0技术架构的迭代优势，针对学术写作的逻辑特性、规范要求进行千万级学术语料训练，精准适配各学科论文写作范式，实现“智能赋能不越界，专业辅助不缺位”，既保留研究者的核心思考，又高效解决写作中的各类痛点，让学术创作更轻松、更合规、更具深度。硬核技术底座：ChatGPT学术版+AI5.0，解锁学术智能新高度技术是学术辅助的核心支撑，宏智树AI以双重技术优势，筑牢学术创作的智能根基。依托ChatGPT学术版模型的强大

【AI开发入门】从小白到专家：AI应用开发工程师全指南，岗位认知到实战落地！

一、解码AI应用开发工程师：大模型时代的落地者在投身AI应用开发学习前，先锚定岗位核心身份，才能让后续的学习之路不偏航。如今频繁出现在招聘启事里的“AI应用开发工程师”，也常被称作大模型应用开发工程师，堪称连接前沿大模型技术与商业价值的“桥梁型”人才。与聚焦算法创新、模型训练的AI算法工程师不同，这个岗位的核心使命是“落地”——把OpenAI、通义千问等大模型的抽象能力，转化为企业能直接使用的产品和服务。它绝非简单调用API的“工具使用者”，而是需要构建一套包含数据处理、逻辑编排、部署运维的完整系统。随着ChatGPT等大模型引爆产业变革，这类“能让AI干活”的工程师，已成为互联网、金融、医疗等行业争抢的香饽饽。举个直观例子：当企业需要一套智能客服系统时，算法岗可能在优化对话生成的流畅度，而AI应用开发工程师则要负责对接企业知识库、设计用户意图识别逻辑、通过RAG技术提升回答准确性，最终把这些能力打包成稳定运行的服务，还得考虑并发量、响应速度等工程问题。二、岗位画像：企业到底要什么样的人才？多数人学习AI应用开发的终极目标是就业，因此在学习初期就摸清招聘市场的“需

01 主要方法

1. 整体架构：RL决策 + MPC执行

2. Actor设计：学习代价而非动作

3. Critic设计与模型预测价值扩展

02 实验结果

1.训练效率与极限性能：学得更快，飞得更猛

2.鲁棒性：无惧风扰与参数偏差

3.可解释性：打开 RL 的黑盒

4.真实世界部署：零样本迁移的 21m/s

03 总结

Read more

普通人 72 小时搭建 AI 军团：我指挥了一支硅基团队，效率提升了 10 倍

Topaz Photo AI v1.3.3 汉化便携版：终极图片降噪与无损放大神器，一键修复模糊废片

宏智树AI——ChatGPT学术版驱动，一站式论文写作智能解决方案

【AI开发入门】从小白到专家：AI应用开发工程师全指南，岗位认知到实战落地！