用 10% GPU 跑通万亿参数 RL!马骁腾拆解万亿参数大模型的后训练实战

用 10% GPU 跑通万亿参数 RL!马骁腾拆解万亿参数大模型的后训练实战

整理 | 梦依丹

出品 | ZEEKLOG(ID:ZEEKLOGnews)

左手是提示词的工程化约束,右手是 Context Learning 的自我进化。

在 OpenAI 新发布的《Prompt guidance for GPT-5.4》中,反复提到了 Prompt Contracts(提示词合约)。要求开发者像编写代码一样,严谨地定义 Agent 的输入边界、输出格式与工具调用逻辑,进而换取 AI 行为的确定性。

但在现实操作中,谁又能日复一日地去维护那些冗长、脆弱的“提示词代码”?

真正的 Agent,不应只靠阅读 Context Engineering,更应该具备 Context Learning 的能力。

为此,在 4 月 17-18 日的 2026 奇点智能技术大会上,我们诚邀 Macaron AI 首席科学家、Mind Lab Director 马骁腾带来一场直击 Agent 进化本质的深度分享,让 Agent 从“听指令”进化到“涨经验”。

马骁腾是谁?

提到马骁腾,笔者脑海首先闪现的是强化学习、Agent、1500+……

作为清华大学自动化系的博士、博士后,马骁腾在产业界和学术界有着扎实的底蕴。他在强化学习相关领域发表了 30 余篇顶会论文,谷歌学术引用超过 1500 次。

现在,他是 Macaron AI 首席科学家,也是 Mind Lab 的掌舵人。

他带队研发了面向万亿参数模型的 LoRA-RL 训练底座—— MinT,成功实现了端到端的万亿参数推理强化学习。

以万亿参数模型(如 Kimi K2)为例,该系统所需的 GPU 数量仅为传统全参数 RL 的约 10%。这彻底改变了大模型后训练的经济学,使 RL 能够大规模落地到更多产品和团队中。(核心解读:https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus)

从 Context Engineering 到 Context Learning:万亿参数大模型的后训练实战

在 2026 奇点智能技术大会上,马骁腾将带来 《迈向经验智能:从 Context Engineering 到 Context Learning》 的深度分享,直击当前 AI Agent 开发与落地的核心痛点。

痛点:Prompt 工程的“边际效应递减”

当前的 Agent 开发,陷入了一个“堆砌上下文”的怪圈。

为了让 Agent 应对动态环境(比如操作一个不断更新的 App 界面),工程师们不得不编写越来越长、越来越复杂的 Prompt。但这带来了两个无法回避的问题:

  • 扩展性受限: 人工编排永远赶不上环境的变化速度;
  • 经验无法复用: Agent 每次任务都是“从零开始”,上一次的成功或失败经验,无法沉淀为模型的能力。

解法:Context Learning(在交互中学习)

马骁腾提出的 Context Learning,核心在于“经验的内化”。

通过强化学习,让模型在真实的交互数据中自主试错、积累经验,并将这些经验刻进模型参数里。

实战干货:MinT 底座与 Macaron AI 案例

为了证明这条路走得通,马骁腾将在现场拆解 Mind Lab 的工程实践:

  • MinT 面向万亿参数模型的 LoRA-RL 训练底座:支撑高吞吐、低成本的强化学习快速迭代。并以 Macaron AI 模型训练为案例,展示如何利用 Context Learning 教会模型操作 Dynamic UI,将交互经验沉淀为可复用的模型能力与训练管线。
  • Macaron AI 模型案例:用 Context Learning 训练 Dynamic UI 交互能力

对于参会者而言,这场分享的直接价值在于:

  • 获得可落地的 RL Infra 建设思路:了解如何搭建一个像 MinT 这样,能够支撑大模型低成本、高吞吐强化学习迭代的基础设施;
  • 将 Context Learning 从理念变为工程现实的前提;
  • 理解可靠性与适应性的平衡术:明白在什么场景下仍需依赖 Context Engineering 确保可靠,又在什么场景下可以放手让模型通过 Context Learning 自主进化,从而设计出更健壮、更灵活的 Agent 系统。

2026 奇点智能技术大会

马骁腾的 Context Learning,只是 2026 奇点智能技术大会众多硬核议题中的一环。

面对“未来没有全栈,只有 Agent 工程师”的行业剧变,我们需要的不只是几场演讲,而是一份可被验证的、成体系的工程经验。

4 月 17-18 日,由 ZEEKLOG 与 奇点智能研究院联合主办的「2026 奇点智能技术大会」 将在上海环球港凯悦酒店隆重召开。

  • 顶尖阵容: 汇聚 50+ 位站在变革最前沿的技术领袖,来自 微软、BAT、京东、快手等一线大厂;
  • 硬核议题: 覆盖 Agent 系统、世界模型、AI 原生研发、AI Infra 等 12 大前沿专题。

这里没有空泛的预测,只有扎实的复盘与当下的解法与前沿的探索。

与此同时,2026 奇点智能技术大会同步开放多种合作形式:

  • 技术生态合作伙伴
  • 企业专场共建
  • 行业解决方案联合展示
  • ……

我们期待与更多长期主义者一起,为 AI 时代留下可被验证、可被复用的工程经验。

图片

扫码下方二维码

提前预约 2026 奇点智能技术大会全套 PPT 资料

图片

官方网站:www.ml-summit.org

购票热线:400-821-5876

购票咨询:[email protected]

企业合作:[email protected]

演讲申请:[email protected]

媒体联系:[email protected]

↓↓ 点击「阅读原文」,了解「2026  奇点智能技术大会」更多信息!

Read more

华为OD机试双机位C卷 - Alice的安全旅行 (C++ & JAVA & Python & C语言 & JS & GO)

华为OD机试双机位C卷 - Alice的安全旅行 (C++ & JAVA & Python & C语言 & JS & GO)

Alice的安全旅行 华为OD机试双机位C卷 - 华为OD上机考试双机位C卷 200分题型 华为OD机试双机位C卷真题目录点击查看: 华为OD机试双机位C卷真题题库目录|机考题库 + 算法考点详解 题目描述 Alice计划从城市0出发最终到达城市N-1,他可以选择一条路线,但路上经过的城市总数(包括起点和终点)不能超过K个,每个城市都有一个安全度值,整个旅程的安全度被定义为路径上所有城市安全度的最小值,她的目标是让这个最小值尽可能高,请问Alice的旅程总体安全度最大能为多少? 输入描述 第一行有两个整数N和K,表示一共N个城市,以及Alice最多去K个城市(2<N<100000,1<K<100000) 接下来N行 每行包括一个整数h 表示去某个城市的安全度0=<h<=1000000000 接下来一行有一个整数M,表示城市间的M条道路,0<M<200000 接下来M行 每行有两个整数s0 s1

By Ne0inhk
C++之基于正倒排索引的Boost搜索引擎项目usuallytool部分代码及详解

C++之基于正倒排索引的Boost搜索引擎项目usuallytool部分代码及详解

这部分是通用工具部分的代码,简单来说就是这份代码里面的函数会在项目的其他多个部分里面被使用,所以我们专门创建一个部分用来存储这些代码。 1.FileUtil 这个类就是专门用来读取文件用的,这个代码从指定的文件路径读取文件内容,将读取到的内容(按行读取)追加到传入的字符串指针(out)所指向的字符串中;同时,该方法会返回一个布尔值,用于标识读取操作是否成功 —— 若文件成功打开并完成读取,返回 true;若文件打开失败(如路径错误等),则输出错误信息并返回 false。 文件以二进制输入模式打开,读取过程中不会修改原文件内容。 class FileUtil{ public: static bool ReadFile(const std::string &file_path,std::string *out) { //下面这行代码就是在打开文件,并通过ifstream定义一个对象in,用于关联特定的文件 std::ifstream in(file_path,std::ios::in

By Ne0inhk
计算机毕设Java基于mvc的酒店管理系统 基于SSM框架的酒店客房预订与运营管理系统 Java Web驱动的智能化民宿服务管理平台

计算机毕设Java基于mvc的酒店管理系统 基于SSM框架的酒店客房预订与运营管理系统 Java Web驱动的智能化民宿服务管理平台

计算机毕设Java基于mvc的酒店管理系统58s0e9 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。 随着旅游业的蓬勃发展和消费升级趋势的持续深化,酒店行业正经历着从传统人工管理模式向数字化、智能化运营的重要转型期。当前多数中小型酒店仍依赖手工登记、纸质档案和分散式信息处理,导致客房资源调配效率低下、客户信息碎片化、财务结算易出错等问题日益凸显。在"互联网+"时代背景下,构建一套集成客房资源管理、客户信息维护、预订入住一体化流程的信息化系统,已成为提升酒店服务响应速度、降低运营成本、增强市场竞争力的关键路径。本系统采用Java作为核心开发语言,基于MVC分层架构模式,结合SSM(Spring+Spring MVC+MyBatis)主流技术栈与MySQL关系型数据库,旨在打造一款轻量级、易部署、高扩展的酒店业务管理解决方案,适用于中小型酒店及连锁民宿的日常运营管理场景。 本系统采用前后端分离的双端架构设计,面向不同角色提供差异化的功能入口与服务能力。 * 首页信息聚合展示,包含系统简介与快捷导航入口 *

By Ne0inhk
【C++开源库使用】调用开源库STB中的stbi_load_from_memory加载图片文件,进行灰化处理,然后调用stbi_write_png或stbi_write_jpg将灰化图片保存到文件中

【C++开源库使用】调用开源库STB中的stbi_load_from_memory加载图片文件,进行灰化处理,然后调用stbi_write_png或stbi_write_jpg将灰化图片保存到文件中

目录 1、图片灰化的实现思路 2、开源STB库下载 3、将图片文件的内容读到buffer中 4、将buffer中存放的图片文件数据传入到stbi_load_from_memory接口中,然后对返回的图片颜色值进行灰化处理 5、调用stbi_write_png或stbi_write_jpg接口将灰化后的图片数据保存成图片文件 6、图片灰化的完整代码        前一篇文章我们讲到了使用libcurl库发http/https请求去下载用户头像文件(文章链接:https://blog.ZEEKLOG.net/chenlycly/article/details/149175549),本篇文章则是同个SDK项目的后续需求中涉及到的功能。第三方厂商要求,对于不在线的人员,要显示灰化的头像。经研究决定使用开源STB库辅助实现图片灰化,调用STB开源库中的stbi_load_from_memory、stbi_write_png或stbi_write_jpg等接口。本文详细讲述一下实现过程,以供大家借鉴或参考。

By Ne0inhk