用 10% GPU 跑通万亿参数 RL！马骁腾拆解万亿参数大模型的后训练实战

Ne0inhk

16 Mar 2026 — 6 min read

整理 | 梦依丹

出品 | ZEEKLOG（ID：ZEEKLOGnews）

左手是提示词的工程化约束，右手是 Context Learning 的自我进化。

在 OpenAI 新发布的《Prompt guidance for GPT-5.4》中，反复提到了 Prompt Contracts（提示词合约）。要求开发者像编写代码一样，严谨地定义 Agent 的输入边界、输出格式与工具调用逻辑，进而换取 AI 行为的确定性。

但在现实操作中，谁又能日复一日地去维护那些冗长、脆弱的“提示词代码”？

真正的 Agent，不应只靠阅读 Context Engineering，更应该具备 Context Learning 的能力。

为此，在 4 月 17-18 日的 2026 奇点智能技术大会上，我们诚邀 Macaron AI 首席科学家、Mind Lab Director 马骁腾带来一场直击 Agent 进化本质的深度分享，让 Agent 从“听指令”进化到“涨经验”。

马骁腾是谁？

提到马骁腾，笔者脑海首先闪现的是强化学习、Agent、1500+……

作为清华大学自动化系的博士、博士后，马骁腾在产业界和学术界有着扎实的底蕴。他在强化学习相关领域发表了 30 余篇顶会论文，谷歌学术引用超过 1500 次。

现在，他是 Macaron AI 首席科学家，也是 Mind Lab 的掌舵人。

他带队研发了面向万亿参数模型的 LoRA-RL 训练底座—— MinT，成功实现了端到端的万亿参数推理强化学习。

以万亿参数模型（如 Kimi K2）为例，该系统所需的 GPU 数量仅为传统全参数 RL 的约 10%。这彻底改变了大模型后训练的经济学，使 RL 能够大规模落地到更多产品和团队中。（核心解读：https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus）

从 Context Engineering 到 Context Learning：万亿参数大模型的后训练实战

在 2026 奇点智能技术大会上，马骁腾将带来《迈向经验智能：从 Context Engineering 到 Context Learning》的深度分享，直击当前 AI Agent 开发与落地的核心痛点。

痛点：Prompt 工程的“边际效应递减”

当前的 Agent 开发，陷入了一个“堆砌上下文”的怪圈。

为了让 Agent 应对动态环境（比如操作一个不断更新的 App 界面），工程师们不得不编写越来越长、越来越复杂的 Prompt。但这带来了两个无法回避的问题：

扩展性受限：人工编排永远赶不上环境的变化速度；
经验无法复用： Agent 每次任务都是“从零开始”，上一次的成功或失败经验，无法沉淀为模型的能力。

解法：Context Learning（在交互中学习）

马骁腾提出的 Context Learning，核心在于“经验的内化”。

通过强化学习，让模型在真实的交互数据中自主试错、积累经验，并将这些经验刻进模型参数里。

实战干货：MinT 底座与 Macaron AI 案例

为了证明这条路走得通，马骁腾将在现场拆解 Mind Lab 的工程实践：

MinT 面向万亿参数模型的 LoRA-RL 训练底座：支撑高吞吐、低成本的强化学习快速迭代。并以 Macaron AI 模型训练为案例，展示如何利用 Context Learning 教会模型操作 Dynamic UI，将交互经验沉淀为可复用的模型能力与训练管线。
Macaron AI 模型案例：用 Context Learning 训练 Dynamic UI 交互能力

对于参会者而言，这场分享的直接价值在于：

获得可落地的 RL Infra 建设思路：了解如何搭建一个像 MinT 这样，能够支撑大模型低成本、高吞吐强化学习迭代的基础设施；
将 Context Learning 从理念变为工程现实的前提；
理解可靠性与适应性的平衡术：明白在什么场景下仍需依赖 Context Engineering 确保可靠，又在什么场景下可以放手让模型通过 Context Learning 自主进化，从而设计出更健壮、更灵活的 Agent 系统。

2026 奇点智能技术大会

马骁腾的 Context Learning，只是 2026 奇点智能技术大会众多硬核议题中的一环。

面对“未来没有全栈，只有 Agent 工程师”的行业剧变，我们需要的不只是几场演讲，而是一份可被验证的、成体系的工程经验。

4 月 17-18 日，由 ZEEKLOG 与奇点智能研究院联合主办的「2026 奇点智能技术大会」将在上海环球港凯悦酒店隆重召开。

顶尖阵容：汇聚 50+ 位站在变革最前沿的技术领袖，来自微软、BAT、京东、快手等一线大厂；
硬核议题：覆盖 Agent 系统、世界模型、AI 原生研发、AI Infra 等 12 大前沿专题。

这里没有空泛的预测，只有扎实的复盘与当下的解法与前沿的探索。

与此同时，2026 奇点智能技术大会同步开放多种合作形式：

技术生态合作伙伴
企业专场共建
行业解决方案联合展示
……

我们期待与更多长期主义者一起，为 AI 时代留下可被验证、可被复用的工程经验。

扫码下方二维码

「提前预约 2026 奇点智能技术大会全套 PPT 资料」

官方网站：www.ml-summit.org

购票热线：400-821-5876

购票咨询：[email protected]

企业合作：[email protected]

演讲申请：[email protected]

媒体联系：[email protected]

↓↓ 点击「阅读原文」，了解「2026 奇点智能技术大会」更多信息！

【Java 开发日记】我们来说一下消息的可靠性投递

目录 1. 核心概念 2. 面临的挑战 3. 关键实现机制 3.1 生产端保证 3.2 Broker端保证 3.3 消费端保证 4. 完整可靠性方案 4.1 事务消息方案（如RocketMQ） 4.2 最大努力投递方案 4.3 本地消息表方案（经典） 5. 高级特性与优化 5.1 顺序性保证 5.2 批量消息可靠性 5.3 监控与对账 6. 不同MQ的实现差异 7. 实践建议总结面试回答 1. 核心概念可靠性投递（Reliable

Java 大视界 -- Java 大数据机器学习模型在自然语言处理中的少样本学习与迁移学习融合

Java 大视界 -- Java 大数据机器学习模型在自然语言处理中的少样本学习与迁移学习融合 * 引言：从虚拟偶像情感计算到语言智能的 “显微镜” 革命 * 正文：从理论架构到工业落地的全链条创新 * 一、NLP 领域的 “数据贫困” 困境与破局逻辑 * 1.1 少样本场景的核心挑战 * 1.2 Java 大数据的 “三维穿透” 技术架构 * 二、工业级融合模型的技术实现与代码解析 * 2.1 预训练模型迁移优化（BERT 医疗领域深度微调） * 2.2 原型网络（Prototypical Network）少样本分类 * 三、实战案例：从医疗语义分析到跨境电商智能客服 * 3.1 医疗场景：罕见病实体识别的 “样本逆袭” * 3.2 跨境电商：阿拉伯语商品类目分类的

JAVA IO流进阶：字符流与字节流的深度应用

JAVA IO流进阶：字符流与字节流的深度应用 1.1 本章学习目标与重点 💡 掌握字节流与字符流的核心区别，能够根据实际开发场景选择合适的IO流实现文件操作。 💡 熟练运用缓冲流提升IO操作效率，解决大文件读写的性能问题。 💡 理解转换流的作用，处理不同编码格式的文件读写，避免乱码问题。 ⚠️ 本章重点是流的嵌套使用和资源释放的标准写法，这是实际开发中高频考点和易错点。 1.2 字节流与字符流的核心差异（七千字以上内容展开） 1.2.1 基本概念与设计初衷 💡 字节流以byte为基本单位进行数据传输，它可以处理所有类型的文件，比如图片、视频、音频、文本等。字符流以char为基本单位进行数据传输，它专门用于处理文本文件，底层会涉及字符编码的转换。字节流的核心类是InputStream和OutputStream，字符流的核心类是Reader和Writer。两者都是抽象类，实际开发中我们使用的是它们的子类，比如FileInputStream、FileWriter等。 ✅ 核心结论：处理非文本文件用字节流，处理文本文件优先用字符流。 1.2.2 代码实操：字

【源力觉醒创作者计划】开源、易用、强中文：文心一言4.5或是普通人/非AI程序员的第一款中文AI？

前言 * 你有没有发现，AI 正在悄悄渗透进我们的生活：写文案、画插图、做PPT、答作业，它几乎无所不能😍 ！但很多人可能会问： AI，我能用吗？用得起吗？适合我吗？特别是中文用户，面对清一色英文界面、动辄上百元的 API 费用、还要“翻墙”的闭源大模型，常常望而却步😩。 * 好消息来了，文心一言4.5 正式开源，带着「能跑、好用、懂中文」的标签亮相😎。这不仅是一款中文大模型，更像是为中文用户量身定做的一把 AI 钥匙，让你在本地就能打开 AI 世界的大门！在这个“不会用 AI 就像不会用手机”的时代，早点上手，早点受益。 * 一起来轻松玩转文心大模型吧👉一文心大模型免费下载地址: https://ai.

Read more

【Java 开发日记】我们来说一下消息的可靠性投递

Java 大视界 -- Java 大数据机器学习模型在自然语言处理中的少样本学习与迁移学习融合

JAVA IO流进阶：字符流与字节流的深度应用

【源力觉醒 创作者计划】开源、易用、强中文：文心一言4.5或是 普通人/非AI程序员 的第一款中文AI？

【源力觉醒创作者计划】开源、易用、强中文：文心一言4.5或是普通人/非AI程序员的第一款中文AI？