用 10% GPU 跑通万亿参数 RL！马骁腾拆解万亿参数大模型的后训练实战

Ne0inhk

15 Mar 2026 — 6 min read

整理 | 梦依丹

出品 | ZEEKLOG（ID：ZEEKLOGnews）

左手是提示词的工程化约束，右手是 Context Learning 的自我进化。

在 OpenAI 新发布的《Prompt guidance for GPT-5.4》中，反复提到了 Prompt Contracts（提示词合约）。要求开发者像编写代码一样，严谨地定义 Agent 的输入边界、输出格式与工具调用逻辑，进而换取 AI 行为的确定性。

但在现实操作中，谁又能日复一日地去维护那些冗长、脆弱的“提示词代码”？

真正的 Agent，不应只靠阅读 Context Engineering，更应该具备 Context Learning 的能力。

为此，在 4 月 17-18 日的 2026 奇点智能技术大会上，我们诚邀 Macaron AI 首席科学家、Mind Lab Director 马骁腾带来一场直击 Agent 进化本质的深度分享，让 Agent 从“听指令”进化到“涨经验”。

马骁腾是谁？

提到马骁腾，笔者脑海首先闪现的是强化学习、Agent、1500+……

作为清华大学自动化系的博士、博士后，马骁腾在产业界和学术界有着扎实的底蕴。他在强化学习相关领域发表了 30 余篇顶会论文，谷歌学术引用超过 1500 次。

现在，他是 Macaron AI 首席科学家，也是 Mind Lab 的掌舵人。

他带队研发了面向万亿参数模型的 LoRA-RL 训练底座—— MinT，成功实现了端到端的万亿参数推理强化学习。

以万亿参数模型（如 Kimi K2）为例，该系统所需的 GPU 数量仅为传统全参数 RL 的约 10%。这彻底改变了大模型后训练的经济学，使 RL 能够大规模落地到更多产品和团队中。（核心解读：https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus）

从 Context Engineering 到 Context Learning：万亿参数大模型的后训练实战

在 2026 奇点智能技术大会上，马骁腾将带来《迈向经验智能：从 Context Engineering 到 Context Learning》的深度分享，直击当前 AI Agent 开发与落地的核心痛点。

痛点：Prompt 工程的“边际效应递减”

当前的 Agent 开发，陷入了一个“堆砌上下文”的怪圈。

为了让 Agent 应对动态环境（比如操作一个不断更新的 App 界面），工程师们不得不编写越来越长、越来越复杂的 Prompt。但这带来了两个无法回避的问题：

扩展性受限：人工编排永远赶不上环境的变化速度；
经验无法复用： Agent 每次任务都是“从零开始”，上一次的成功或失败经验，无法沉淀为模型的能力。

解法：Context Learning（在交互中学习）

马骁腾提出的 Context Learning，核心在于“经验的内化”。

通过强化学习，让模型在真实的交互数据中自主试错、积累经验，并将这些经验刻进模型参数里。

实战干货：MinT 底座与 Macaron AI 案例

为了证明这条路走得通，马骁腾将在现场拆解 Mind Lab 的工程实践：

MinT 面向万亿参数模型的 LoRA-RL 训练底座：支撑高吞吐、低成本的强化学习快速迭代。并以 Macaron AI 模型训练为案例，展示如何利用 Context Learning 教会模型操作 Dynamic UI，将交互经验沉淀为可复用的模型能力与训练管线。
Macaron AI 模型案例：用 Context Learning 训练 Dynamic UI 交互能力

对于参会者而言，这场分享的直接价值在于：

获得可落地的 RL Infra 建设思路：了解如何搭建一个像 MinT 这样，能够支撑大模型低成本、高吞吐强化学习迭代的基础设施；
将 Context Learning 从理念变为工程现实的前提；
理解可靠性与适应性的平衡术：明白在什么场景下仍需依赖 Context Engineering 确保可靠，又在什么场景下可以放手让模型通过 Context Learning 自主进化，从而设计出更健壮、更灵活的 Agent 系统。

2026 奇点智能技术大会

马骁腾的 Context Learning，只是 2026 奇点智能技术大会众多硬核议题中的一环。

面对“未来没有全栈，只有 Agent 工程师”的行业剧变，我们需要的不只是几场演讲，而是一份可被验证的、成体系的工程经验。

4 月 17-18 日，由 ZEEKLOG 与奇点智能研究院联合主办的「2026 奇点智能技术大会」将在上海环球港凯悦酒店隆重召开。

顶尖阵容：汇聚 50+ 位站在变革最前沿的技术领袖，来自微软、BAT、京东、快手等一线大厂；
硬核议题：覆盖 Agent 系统、世界模型、AI 原生研发、AI Infra 等 12 大前沿专题。

这里没有空泛的预测，只有扎实的复盘与当下的解法与前沿的探索。

与此同时，2026 奇点智能技术大会同步开放多种合作形式：

技术生态合作伙伴
企业专场共建
行业解决方案联合展示
……

我们期待与更多长期主义者一起，为 AI 时代留下可被验证、可被复用的工程经验。

扫码下方二维码

「提前预约 2026 奇点智能技术大会全套 PPT 资料」

官方网站：www.ml-summit.org

购票热线：400-821-5876

购票咨询：[email protected]

企业合作：[email protected]

演讲申请：[email protected]

媒体联系：[email protected]

↓↓ 点击「阅读原文」，了解「2026 奇点智能技术大会」更多信息！

1Panel面板下Open WebUI镜像加速实战：从ghcr.io到国内镜像站的无缝切换

1. 为什么需要镜像加速在国内使用Docker拉取GitHub Container Registry（ghcr.io）的镜像时，经常会遇到下载速度极慢甚至完全无法连接的问题。这主要是因为ghcr.io的服务器位于海外，国内访问存在网络延迟和带宽限制。以Open WebUI为例，一个3GB左右的镜像可能需要数小时才能下载完成，严重影响开发效率。我曾经在部署Open WebUI时就遇到过这个问题。当时尝试从ghcr.io直接拉取镜像，速度只有几十KB/s，而且经常中断。后来发现国内高校和云服务商提供了ghcr.io的镜像服务，切换到南京大学镜像源后，下载速度立刻提升到10MB/s以上，整个镜像几分钟就完成了下载。 2. 国内镜像站的选择目前国内可用的ghcr.io镜像站主要有以下几种： 1. 南京大学镜像站（ghcr.nju.edu.cn）：这是最稳定的选择之一，更新频率高，支持匿名拉取 2. 华为云镜像仓库（swr.cn-north-4.myhuaweicloud.com）：提供企业级镜像服务，需要登录后使用

C++ 方向 Web 自动化测试入门指南：从概念到 Selenium 实战

🔥草莓熊Lotso：个人主页 ❄️个人专栏: 《C++知识分享》《Linux 入门到实践：零基础也能懂》 ✨生活是默默的坚持，毅力是永久的享受！ 🎬 博主简介：文章目录 * 前言： * 一. 自动化测试基础：先搞懂"为什么"和"做什么" * 1.1 自动化测试的核心目标：回归测试 * 1.2 自动化测试分类：别把 “不同自动化” 混为一谈 * 1.3 自动化测试金字塔：如何分配测试资源？ * 二. Web 自动化测试核心：环境搭建与驱动管理 * 2.1 核心组件原理：三者如何协同工作？ * 2.2 环境搭建：3 步搞定依赖安装

cpolar远程辅助Open-Lovable实现随时随地克隆网页超实用

Open-Lovable 是一款面向前端开发者的开源工具，核心功能是将任意网页克隆为可编辑的 React 应用，还支持多类 AI 模型辅助生成代码，适配新手学习、中小企业原型开发等场景。它的优点很贴合实际需求：拆分代码组件清晰，保留完整 CSS 样式，能大幅减少手动搭建页面框架的时间，比如新手学习电商网站布局时，不用再逐行拆解复杂的源代码，直接克隆后就能看清 header、footer 等组件的逻辑，中小企业做产品原型时，克隆同类网页后稍作修改就能快速出效果。使用这款工具时也有一些实用的小提醒💡：克隆的网页仅能还原静态布局和样式，像登录态、动态交互这类内容无法完整复刻，而且使用前需要准备好 E2B、Firecrawl 等平台的 API 密钥，密钥保管要注意隐私，避免外泄造成不必要的损失。不过 Open-Lovable 默认只能在本地局域网内使用，这会带来不少不便：比如开发者在家调试的克隆项目，想让公司的设计师远程查看效果，只能通过传文件、远程协助的方式，不仅耗时，还可能出现版本不一致的问题；要是出差在外需要修改克隆的代码，没法直接访问本地的工具，只能等回到电脑前操作，耽误工作

前端网页开发学习（HTML+CSS+JS）有这一篇就够！

目录 HTML教程 ▐ 概述 ▐ 基础语法 ▐ 文本标签 ▐ 列表标签 ▐ 表格标签 ▐ 表单标签 CSS教程 ▐ 概述 ▐ 基础语法 ▐ 选择器 ▐ 修饰文本 ▐ 修饰背景 ▐ 透明度 ▐ 伪类 ▐ 盒子模型 ▐ 浮动 ▐ 定位 JavaScript教程 ▐ 概述 ▐ 基础语法 ▐ 函数 ▐ 事件 ▐ 计时 ▐ HTML DOM html css js三者之间的关系 HTML教程 ▐ 概述 HTML是HyperText Markup Language的缩写，即超文本标记语言。它为我们提供了许多功能不同的标签，最终运行时由浏览器对标签进行解析，呈现出不同标签的样子。 ▐ 基础语法注释：  （ Ctrl + / ） <body> <

Read more

1Panel面板下Open WebUI镜像加速实战：从ghcr.io到国内镜像站的无缝切换

C++ 方向 Web 自动化测试入门指南：从概念到 Selenium 实战

cpolar远程辅助Open-Lovable实现随时随地克隆网页超实用

前端网页开发学习（HTML+CSS+JS）有这一篇就够！