用 10% GPU 跑通万亿参数 RL！马骁腾拆解万亿参数大模型的后训练实战

Ne0inhk

15 Mar 2026 — 6 min read

整理 | 梦依丹

出品 | ZEEKLOG（ID：ZEEKLOGnews）

左手是提示词的工程化约束，右手是 Context Learning 的自我进化。

在 OpenAI 新发布的《Prompt guidance for GPT-5.4》中，反复提到了 Prompt Contracts（提示词合约）。要求开发者像编写代码一样，严谨地定义 Agent 的输入边界、输出格式与工具调用逻辑，进而换取 AI 行为的确定性。

但在现实操作中，谁又能日复一日地去维护那些冗长、脆弱的“提示词代码”？

真正的 Agent，不应只靠阅读 Context Engineering，更应该具备 Context Learning 的能力。

为此，在 4 月 17-18 日的 2026 奇点智能技术大会上，我们诚邀 Macaron AI 首席科学家、Mind Lab Director 马骁腾带来一场直击 Agent 进化本质的深度分享，让 Agent 从“听指令”进化到“涨经验”。

马骁腾是谁？

提到马骁腾，笔者脑海首先闪现的是强化学习、Agent、1500+……

作为清华大学自动化系的博士、博士后，马骁腾在产业界和学术界有着扎实的底蕴。他在强化学习相关领域发表了 30 余篇顶会论文，谷歌学术引用超过 1500 次。

现在，他是 Macaron AI 首席科学家，也是 Mind Lab 的掌舵人。

他带队研发了面向万亿参数模型的 LoRA-RL 训练底座—— MinT，成功实现了端到端的万亿参数推理强化学习。

以万亿参数模型（如 Kimi K2）为例，该系统所需的 GPU 数量仅为传统全参数 RL 的约 10%。这彻底改变了大模型后训练的经济学，使 RL 能够大规模落地到更多产品和团队中。（核心解读：https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus）

从 Context Engineering 到 Context Learning：万亿参数大模型的后训练实战

在 2026 奇点智能技术大会上，马骁腾将带来《迈向经验智能：从 Context Engineering 到 Context Learning》的深度分享，直击当前 AI Agent 开发与落地的核心痛点。

痛点：Prompt 工程的“边际效应递减”

当前的 Agent 开发，陷入了一个“堆砌上下文”的怪圈。

为了让 Agent 应对动态环境（比如操作一个不断更新的 App 界面），工程师们不得不编写越来越长、越来越复杂的 Prompt。但这带来了两个无法回避的问题：

扩展性受限：人工编排永远赶不上环境的变化速度；
经验无法复用： Agent 每次任务都是“从零开始”，上一次的成功或失败经验，无法沉淀为模型的能力。

解法：Context Learning（在交互中学习）

马骁腾提出的 Context Learning，核心在于“经验的内化”。

通过强化学习，让模型在真实的交互数据中自主试错、积累经验，并将这些经验刻进模型参数里。

实战干货：MinT 底座与 Macaron AI 案例

为了证明这条路走得通，马骁腾将在现场拆解 Mind Lab 的工程实践：

MinT 面向万亿参数模型的 LoRA-RL 训练底座：支撑高吞吐、低成本的强化学习快速迭代。并以 Macaron AI 模型训练为案例，展示如何利用 Context Learning 教会模型操作 Dynamic UI，将交互经验沉淀为可复用的模型能力与训练管线。
Macaron AI 模型案例：用 Context Learning 训练 Dynamic UI 交互能力

对于参会者而言，这场分享的直接价值在于：

获得可落地的 RL Infra 建设思路：了解如何搭建一个像 MinT 这样，能够支撑大模型低成本、高吞吐强化学习迭代的基础设施；
将 Context Learning 从理念变为工程现实的前提；
理解可靠性与适应性的平衡术：明白在什么场景下仍需依赖 Context Engineering 确保可靠，又在什么场景下可以放手让模型通过 Context Learning 自主进化，从而设计出更健壮、更灵活的 Agent 系统。

2026 奇点智能技术大会

马骁腾的 Context Learning，只是 2026 奇点智能技术大会众多硬核议题中的一环。

面对“未来没有全栈，只有 Agent 工程师”的行业剧变，我们需要的不只是几场演讲，而是一份可被验证的、成体系的工程经验。

4 月 17-18 日，由 ZEEKLOG 与奇点智能研究院联合主办的「2026 奇点智能技术大会」将在上海环球港凯悦酒店隆重召开。

顶尖阵容：汇聚 50+ 位站在变革最前沿的技术领袖，来自微软、BAT、京东、快手等一线大厂；
硬核议题：覆盖 Agent 系统、世界模型、AI 原生研发、AI Infra 等 12 大前沿专题。

这里没有空泛的预测，只有扎实的复盘与当下的解法与前沿的探索。

与此同时，2026 奇点智能技术大会同步开放多种合作形式：

技术生态合作伙伴
企业专场共建
行业解决方案联合展示
……

我们期待与更多长期主义者一起，为 AI 时代留下可被验证、可被复用的工程经验。

扫码下方二维码

「提前预约 2026 奇点智能技术大会全套 PPT 资料」

官方网站：www.ml-summit.org

购票热线：400-821-5876

购票咨询：[email protected]

企业合作：[email protected]

演讲申请：[email protected]

媒体联系：[email protected]

↓↓ 点击「阅读原文」，了解「2026 奇点智能技术大会」更多信息！

OpenClaw（龙虾）开源AI智能体科普解析：核心原理、功能特性与本地部署教程

近期开源AI领域，OpenClaw（俗称“龙虾”）凭借其本地优先、可定制的特性，受到开发者社区的广泛关注，其项目保活程度与社区活跃度可通过GitHub数据直观体现：目前该项目已获得222k stars、1.2k watching、42.3k forks，各项数据均处于开源AI智能体领域前列，足以证明其社区认可度与持续更新能力。作为一款开源AI智能体工具，它在办公自动化、系统辅助等场景具有实用价值，适合开发者了解和落地实践。 OpenClaw是一款开源的个人AI助手编排平台，采用TypeScript开发，目前在GitHub上拥有较高的关注度，其核心价值在于将大模型的推理能力与本地系统操作相结合，打破了传统AI助手“仅能交互、无法执行”的局限。本文将从技术科普角度，围绕OpenClaw的核心定义、功能特性、技术细节及本地部署步骤展开，帮助开发者全面了解这款工具的原理与使用方法。对于ZEEKLOG的开发者群体而言，了解OpenClaw的技术架构与应用场景，既能拓展AI智能体的认知边界，也能将其应用于日常开发、办公场景，提升工作效率。本文将从「核心定义、功能特性、技术细节、本地部署」

Trae IDE 终极指南：从入门到精通，释放你的 AI 编程潜力（上）

💡 就像选择手机一样：iPhone 简洁易用，Android 功能丰富。Trae 和 Cursor 也是如此——一个是"开箱即用的 iPhone"，一个是"高度定制的 Android"。本文将帮你找到最适合自己的 AI 编程助手！在当今的软件开发领域，AI 编程助手已成为提升效率、激发创意的关键工具。而 Trae IDE 作为一款为开发者量身打造的智能开发环境，其强大的模型管理功能，更是让它在众多工具中脱颖而出。无论你是想快速上手，还是希望深度定制，Trae 都能满足你的需求。本文将作为你的终极向导，带你深入探索 Trae IDE 的模型世界，从轻松切换内置模型，到添加和管理你自己的专属模型，助你将 Trae 的能力发挥到极致。 📑 文章目录第一部分：基础入门 🎯 1.

嵌入式AI？

就当做嵌入式的一个外设来看待就行了。什么是嵌入式AI 嵌入式 AI（Embedded AI）是指将人工智能技术与算法集成到嵌入式系统中，使设备能够在本地（无需依赖云端服务器）实现数据处理、分析和决策的技术形态。它融合了嵌入式系统的实时性、低功耗特性与AI 的智能化能力，让传统硬件设备具备 “边端智能”，适用于对响应速度、隐私保护、网络依赖性要求高的场景。核心特点本地化运行无需联网即可完成数据处理和决策，避免网络延迟和断网风险（如自动驾驶汽车在隧道中实时避障）。保护用户隐私：敏感数据（如人脸、医疗信息）无需上传云端，直接在设备端处理。低功耗与轻量化受限于嵌入式设备的算力和电池容量（如智能手环、智能家居设备），需对 AI 模型进行压缩优化（如模型剪枝、量化、知识蒸馏），使其适配低功耗芯片（如 ARM 处理器、NPU 神经处理单元）。实时性与可靠性适用于对延迟敏感的场景（如工业机器人实时抓取、智能摄像头动态追踪）

用 OpenClaw + 飞书，快速搭建 5 个可协作的 AI 助理团队

多个飞书机器人 + 独立工作空间 + 互相协作 = 专业化分工的 AI 助理团队写在前面如何用 OpenClaw 搭建一套多 Agent 系统，让 AI 助理各司其职、协同工作？通过 OpenClaw 多 Agent 架构，你可以实现： * 多个独立的飞书机器人，每个人设不同 * 各自独立的工作空间，数据完全隔离 * 可以互相协作，通过 agentToAgent 通信 * 共享长期记忆，跨渠道信息同步本文将详细介绍如何在腾讯云服务器上，用 OpenClaw 搭建一套飞书多 Agent 系统，包括完整配置流程、常见问题解决方案和实战协作案例。目录 1. 为什么需要多 Agent 2. 前置准备 3. 5 个 Agent

Read more

OpenClaw（龙虾）开源AI智能体科普解析：核心原理、功能特性与本地部署教程

Trae IDE 终极指南：从入门到精通，释放你的 AI 编程潜力（上）

嵌入式AI？

用 OpenClaw + 飞书，快速搭建 5 个可协作的 AI 助理团队