清华智谱发布 AutoGLM 技术报告：AI 自主操作手机与网页

智谱与清华团队发布 AutoGLM 技术报告，推出首个产品化智能体。该模型基于 ChatGLM 系列，通过图形用户界面自主控制数字设备，支持手机应用及网页操作。采用基础智能体解耦合中间界面和自进化在线课程强化学习框架，提升错误恢复与性能。评估显示 AutoGLM 在 AndroidLab 成功率为 36.2%，流行 APP 任务成功率 89.7%，网页端 VAB-WebArena-Lite 成功率 55.2%，展现了基础智能体在人机交互中的潜力。

灵魂摆渡发布于 2025/2/7更新于 2026/4/180 浏览

在 CNCC2024 大会上，智谱推出了 GLM 第一个产品化的智能体（Agent）——AutoGLM。只需接收简单的文字/语音指令，它就可以模拟人类操作手机，进而帮你：

在微信上「给老板的朋友圈点赞并写评论」，
在淘宝上「购买某一款历史订单产品」，
在携程上预订酒店，
在 12306 上购买火车票，
在美团上点个外卖，
…

另外，AutoGLM 也可以对网页进行操作，比如'检索知识图谱最新的学术期刊发表内容且只看北大核心'。

AutoGLM 的出现，让 AI「phone use」与网页操作不再是设想。

近日，智谱和清华团队在预印本网站 arXiv 上发布了 AutoGLM 的技术报告。

AutoGLM 相关图片

论文链接：

https://arxiv.org/abs/2411.00820

项目地址：

https://xiao9905.github.io/AutoGLM/

技术报告主要内容如下：

AutoGLM 是 ChatGLM 系列中的一个新产品，旨在作为基础智能体，通过图形用户界面（GUI）自主控制数字设备，实现更进一步的 AI「phone use」。
研究主要贡献包括：设计了一个「基础智能体解耦合中间界面」，有效解耦规划和执行行为；开发了一种「自进化在线课程强化学习框架」，实现了鲁棒的错误恢复和性能提升。
在安卓设备控制方面，AutoGLM 在 AndroidLab（VAB-Mobile）上的成功率为 36.2%，在流行 APP 的常见任务上的成功率为 89.7%。揭示了基础智能体技术在未来人机交互中的广泛潜力。
在网页浏览方面，AutoGLM 在 VAB-WebArena-Lite 上取得了 55.2% 的成功率（第二次尝试后成功率提高到 59.1%），在 OpenTable 评估任务中取得了 96.2% 的成功率。

AutoGLM 是如何炼成的？

在开发过程中，AutoGLM 团队采用了多项先进技术，以克服基础模型在真实环境中执行任务的挑战。

预训练。通常，互联网上的文本语料库中缺乏智能体相关的数据，使得 LLM 难以有效地充当智能体。此外，现有的多模态大模型（LMM）预训练主要集中于'视觉指令微调'，未能充分从序列多模态数据中学习。因此，合理利用在线数据中的弱监督决策信号来进行预训练能够提供帮助。此外，在多模态感知方面，高分辨率视觉输入非常重要，尤其是在使用 SoM 提示等定位策略时。
多模态大模型。LMM 对于理解和操控 GUI 至关重要。传统的机器人过程自动化（RPA）使用光学字符识别（OCR）工具来匹配手工编写的自动化程序中的关键元素，但难以扩展和泛化。而 LMM 则能够利用常识和 GUI 环境，进行模糊匹配和长程规划。当然，LMM 仍然需要大量训练，以获得智能体任务所需的强大规划和推理能力。
- 行为克隆（监督微调）。行为克隆是从头开始使用高质量专家轨迹数据训练智能体的关键策略，被验证了对基于 LLM 和 LMM 的智能体训练有效。当然，值得注意的是，该策略存在两个主要缺陷：采集专家轨迹成本高昂且耗时、当专家轨迹为理想解时智能体出错后难以有效纠正。
课程学习。智能体任务通常难度差异显著，因此通过课程计划逐步增加训练难度非常关键，这一策略对构建具有复杂目标实现能力的基础智能体非常有用。例如，AutoWebGLM 采用了多阶段课程，在此过程中智能体模型依次接受单步任务、简单多步任务和复杂的长程任务的训练。
奖励建模（RM）。为了让基础智能体能够通过在线强化学习（RL）获得监督，适当的奖励建模至关重要。此前许多 RL 智能体使用带有精确规则的奖励函数进行有限任务的训练。然而，基于 LLM 和 LMM 的基础智能体面向开放世界中的通用任务，这与任务专属奖励函数的能力相悖。因此，研究团队建立了能够适应广泛现实任务的通用奖励模型，包括结果监督 ORM 和过程监督 PRM，提供了不同粒度上的有效监督。
强化学习。相比于行为克隆，狭义的 RL 能更好地从失败中学习。对于基础智能体训练来说，这尤为重要，因为高质量的专家轨迹非常难获得。然而，将 RL 应用于基础智能体训练的挑战在于采样效率低。这个问题可以从两个方面理解：1）模拟器：当智能体在网页或安卓环境中进行探索时，其效率受限于网络连接速度和并行度上限。安卓虚拟设备等环境非常耗费内存。2）样本多样性：LLMs 和 LMMs 经过训练以输出特定的功能性动作。这种严格的功能格式通常要求模型进行过度拟合训练，采样结果单一。