通义 DeepResearch 智能体训练全流程解析
2024 年,阿里通义实验室发布了 DeepResearch,这是一款针对科研场景设计的开源'智能体'模型系统。它不再是简单的对话机器人,而是能像研究人员一样,围绕一个问题构建完整的'研究闭环':深度检索、跨源交叉、结构化归纳、报告生成,最终输出有引用、可复现的调研报告与决策建议。通义团队通过创新的技术架构和训练方法,使 DeepResearch 在多个极高难度的信息检索和推理任务中取得了最先进的成绩。
数据合成策略:为训练提供海量'燃料'
通义 DeepResearch 独创了全自动合成数据管道,彻底摆脱昂贵人工标注的瓶颈。团队设计了一个名为 AgentFounder 的系统,持续从文档、网络爬取数据、知识图谱、工具调用记录等多源采集信息,构建'实体锚定的开放世界知识记忆'。基于采样得到的实体和相关知识,自动生成多种风格的问题–答案对,为预训练和后续微调提供海量基础训练样本。
此外,团队还进行动作(行为)合成:基于历史交互轨迹和题目,生成推理与决策过程数据。例如,将原始步骤重构为多步规划决策任务,形成多阶段解决方案序列。这些合成轨迹模拟模型在真实 Web 环境中的查询、点击、推理步骤,极大丰富了智能体对不同操作序列的认识,甚至无需额外调用真实 API 就能离线模拟各种复杂推理动作。所有这些数据合成策略形成了一个'数据飞轮':预训练产生的数据不断供给后续阶段,又反过来促进更多样本的生成。
Agentic 增量预训练 (CPT):夯实模型基础
Agentic CPT 相当于给智能体做'扎实的理论学习'。团队首先用合成好的大规模数据对基础语言模型进行增量预训练。在这个阶段,模型并非仅仅背诵静态文本,而是学习一系列模拟'研究过程'的轨迹:比如根据一个查询逐步提取文档信息、调用工具、形成答案。这通过掩码语言建模的方式,让模型隐式学会规划和工具使用的技能。
Agentic CPT 的创新在于其 AgentFounder 数据方案:利用前述数据合成产生的丰富问答对与推理过程,实现了可扩展的大规模训练。
有监督微调 (SFT) 冷启动:模拟专家示范
在增量预训练后,DeepResearch 会让模型通过有监督微调 (SFT) 进行'专家示范'训练,快速进入任务状态。此阶段使用合成的高质量问答和轨迹数据,让模型学习规范的思考–行动–观察循环。具体做法是用两种风格的示例训练模型:一是经典的 ReAct 形式('思考→行动→观察'循环),让模型学会结构化答题;二是团队提出的 IterResearch 形式,即在多轮推理时每轮重新聚焦关键内容,避免上下文信息过多造成干扰。
通过这样的冷启动,模型迅速掌握从结构化思考到生成连贯行动的能力,为后续自我优化打下良好基础。
强化学习 (RL):在模拟环境中自我演练
最后进入强化学习阶段,让智能体在安全可控的模拟环境中'自行试错',持续优化决策策略。通义团队采用定制的 GRPO(Group Relative Policy Optimization)算法,严格遵循 on-policy 训练范式,确保奖励信号与模型当前能力匹配。在训练目标上,使用了基于 Token 级别的策略梯度损失,并引入留一法(leave-one-out)来降低方差,同时有选择地剔除过长未完成的负样本,避免模型陷入'格式崩溃'。
训练时还通过增大批次和并行实例来稳定学习。类似于模拟战场练习,智能体不断在仿真网页环境中进行查询、点击和推理,每一次成功完成任务都会得到奖励,模型的策略随着奖励持续上升,探索度保持高位。这一切都依托稳定的环境和数据支持:团队构建了离线维基百科 + 自制工具的沙盒模拟环境,并实时自动管理生成数据,以保证训练过程高效且鲁棒。
阶段协同与闭环:不断迭代的训练循环
DeepResearch 的成功还在于各阶段环环相扣、形成闭环。从 CPT 阶段打基础,到 SFT 阶段冷启动,最后到 RL 阶段自我进化,每一步都为下一步提供素材和启发。CPT 和 SFT 产生的合成数据反过来可用于强化学习训练,RL 训练新得的轨迹也可反馈到数据管道中,持续丰富训练样本。可谓是一个不断'自己喂养自己'的训练循环。
这一全栈式方案相当于教会一个学习者:先在课堂上学习知识、再在实验室跟随导师练习,最后独立做项目,实现技能的真实落地。
应用场景
DeepResearch 已在实际产品中得到应用。在高德地图中,DeepResearch 被用作智能出行 Agent:集成专用地图 API、实时天气和交通监测等工具,可根据当前情况规划最优路线。在法律领域,DeepResearch 驱动的'通义法睿'智能体能自动检索法律法规、案例和裁判文书,并进行深度归纳分析,在'法条引用相关性'和'案例引用相关性'两项指标上超过了国际顶尖模型,为法律从业者提供了准确可靠的检索和分析支持。


