通义 DeepResearch 智能体训练全流程解析

2024 年，阿里通义实验室发布了 DeepResearch，这是一款针对科研场景设计的开源'智能体'模型系统。它不再是简单的对话机器人，而是能像研究人员一样，围绕一个问题构建完整的'研究闭环'：深度检索、跨源交叉、结构化归纳、报告生成，最终输出有引用、可复现的调研报告与决策建议。通义团队通过创新的技术架构和训练方法，使 DeepResearch 在多个极高难度的信息检索和推理任务中取得了最先进的成绩。

数据合成策略：为训练提供海量'燃料'

通义 DeepResearch 独创了全自动合成数据管道，彻底摆脱昂贵人工标注的瓶颈。团队设计了一个名为 AgentFounder 的系统，持续从文档、网络爬取数据、知识图谱、工具调用记录等多源采集信息，构建'实体锚定的开放世界知识记忆'。基于采样得到的实体和相关知识，自动生成多种风格的问题–答案对，为预训练和后续微调提供海量基础训练样本。

此外，团队还进行动作（行为）合成：基于历史交互轨迹和题目，生成推理与决策过程数据。例如，将原始步骤重构为多步规划决策任务，形成多阶段解决方案序列。这些合成轨迹模拟模型在真实 Web 环境中的查询、点击、推理步骤，极大丰富了智能体对不同操作序列的认识，甚至无需额外调用真实 API 就能离线模拟各种复杂推理动作。所有这些数据合成策略形成了一个'数据飞轮'：预训练产生的数据不断供给后续阶段，又反过来促进更多样本的生成。

Agentic 增量预训练 (CPT)：夯实模型基础

Agentic CPT 相当于给智能体做'扎实的理论学习'。团队首先用合成好的大规模数据对基础语言模型进行增量预训练。在这个阶段，模型并非仅仅背诵静态文本，而是学习一系列模拟'研究过程'的轨迹：比如根据一个查询逐步提取文档信息、调用工具、形成答案。这通过掩码语言建模的方式，让模型隐式学会规划和工具使用的技能。

Agentic CPT 的创新在于其 AgentFounder 数据方案：利用前述数据合成产生的丰富问答对与推理过程，实现了可扩展的大规模训练。

有监督微调 (SFT) 冷启动：模拟专家示范

在增量预训练后，DeepResearch 会让模型通过有监督微调 (SFT) 进行'专家示范'训练，快速进入任务状态。此阶段使用合成的高质量问答和轨迹数据，让模型学习规范的思考–行动–观察循环。具体做法是用两种风格的示例训练模型：一是经典的 ReAct 形式（'思考→行动→观察'循环），让模型学会结构化答题；二是团队提出的 IterResearch 形式，即在多轮推理时每轮重新聚焦关键内容，避免上下文信息过多造成干扰。

通过这样的冷启动，模型迅速掌握从结构化思考到生成连贯行动的能力，为后续自我优化打下良好基础。

强化学习 (RL)：在模拟环境中自我演练

最后进入强化学习阶段，让智能体在安全可控的模拟环境中'自行试错'，持续优化决策策略。通义团队采用定制的 GRPO（Group Relative Policy Optimization）算法，严格遵循 on-policy 训练范式，确保奖励信号与模型当前能力匹配。在训练目标上，使用了基于 Token 级别的策略梯度损失，并引入留一法（leave-one-out）来降低方差，同时有选择地剔除过长未完成的负样本，避免模型陷入'格式崩溃'。

训练时还通过增大批次和并行实例来稳定学习。类似于模拟战场练习，智能体不断在仿真网页环境中进行查询、点击和推理，每一次成功完成任务都会得到奖励，模型的策略随着奖励持续上升，探索度保持高位。这一切都依托稳定的环境和数据支持：团队构建了离线维基百科 + 自制工具的沙盒模拟环境，并实时自动管理生成数据，以保证训练过程高效且鲁棒。

阶段协同与闭环：不断迭代的训练循环

DeepResearch 的成功还在于各阶段环环相扣、形成闭环。从 CPT 阶段打基础，到 SFT 阶段冷启动，最后到 RL 阶段自我进化，每一步都为下一步提供素材和启发。CPT 和 SFT 产生的合成数据反过来可用于强化学习训练，RL 训练新得的轨迹也可反馈到数据管道中，持续丰富训练样本。可谓是一个不断'自己喂养自己'的训练循环。

这一全栈式方案相当于教会一个学习者：先在课堂上学习知识、再在实验室跟随导师练习，最后独立做项目，实现技能的真实落地。

应用场景

DeepResearch 已在实际产品中得到应用。在高德地图中，DeepResearch 被用作智能出行 Agent：集成专用地图 API、实时天气和交通监测等工具，可根据当前情况规划最优路线。在法律领域，DeepResearch 驱动的'通义法睿'智能体能自动检索法律法规、案例和裁判文书，并进行深度归纳分析，在'法条引用相关性'和'案例引用相关性'两项指标上超过了国际顶尖模型，为法律从业者提供了准确可靠的检索和分析支持。

开源链接

GitHub: https://github.com/Alibaba-NLP/DeepResearch
Hugging Face: https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

通义 DeepResearch 智能体训练全流程解析