清华智谱开源7440亿参数的智能体GLM-5

简介

我们正式推出GLM-5,面向复杂系统工程与长周期智能体任务。规模化仍然是提升通用人工智能(AGI)智能效能的最重要途径之一。相比GLM-4.5,GLM-5将参数量从3550亿(激活320亿)扩展至7440亿(激活400亿),预训练数据从23万亿token增至28.5万亿token。GLM-5还集成了深度求索稀疏注意力机制(DSA),在保持长上下文能力的同时大幅降低部署成本。

强化学习旨在弥合预训练模型"达标"与"卓越"之间的鸿沟。然而由于RL训练效率问题,在大语言模型中规模化部署面临挑战。为此我们开发了slime——创新的异步RL基础设施,显著提升训练吞吐效率,支持更精细化的训练后迭代。得益于预训练与训练后的双重突破,GLM-5在各类学术基准测试中较GLM-4.7实现显著提升,在推理、编程和智能体任务领域达到全球开源模型顶尖水平,进一步缩小与前沿模型的差距。

基准测试

GLM-5GLM-4.7DeepSeek-V3.2Kimi K2.5Claude Opus 4.5Gemini 3 ProGPT-5.2 (xhigh)
HLE30.524.825.131.528.437.235.4
HLE (w/ Tools)50.442.840.851.843.4*45.8*45.5*
AIME 2026 I92.792.992.792.593.390.6-
HMMT Nov. 202596.993.590.291.191.793.097.1
IMOAnswerBench82.582.078.381.878.583.386.3
GPQA-Diamond86.085.782.487.687.091.992.4
SWE-bench Verified77.873.873.176.880.976.280.0
SWE-bench Multilingual73.366.770.273.077.565.072.0
Terminal-Bench 2.0 (Terminus 2)56.2 / 60.7 †41.039.350.859.354.254.0
Terminal-Bench 2.0 (Claude Code)56.2 / 61.1 †32.846.4-57.9--
CyberGym43.223.517.341.350.639.9-
BrowseComp62.052.051.460.637.037.8-
BrowseComp (w/ Context Manage)75.967.567.674.967.859.265.8
BrowseComp-Zh72.766.665.062.362.466.876.1
τ²-Bench89.787.485.380.291.690.785.5
MCP-Atlas (Public Set)67.852.062.263.865.266.668.0
Tool-Decathlon38.023.835.227.843.536.446.3
Vending Bench 2$4,432.12$2,376.82$1,034.00$1,198.46$4,967.06$5,478.16$3,591.33
*:指其全套测试的得分。

†:Terminal-Bench 2.0的验证版本,修复了一些模糊指令。
详见脚注获取更多评估细节。

脚注

  • 人类终极考试(HLE)及其他推理任务:我们评估时设置最大生成长度为131,072个token(temperature=1.0, top_p=0.95, max_new_tokens=131072)。默认情况下,我们报告纯文本子集的结果;带*标记的结果来自完整数据集。我们使用GPT-5.2(中等规模)作为评判模型。对于带工具的HLE评估,我们使用最大上下文长度202,752个token。
  • SWE-bench与SWE-bench多语言版:我们使用OpenHands运行SWE-bench测试套件,并采用定制化的指令提示。设置参数:temperature=0.7, top_p=0.95, max_new_tokens=16384,上下文窗口为200K。
  • 浏览器交互评测(BrowserComp):在没有上下文管理的情况下,我们仅保留最近5轮对话的细节。启用上下文管理时,采用与DeepSeek-v3.2和Kimi K2.5相同的全丢弃策略。
  • 终端基准测试2.0(Terminus 2):我们使用Terminus框架评估,参数为timeout=2h, temperature=0.7, top_p=1.0, max_new_tokens=8192,上下文窗口为128K。资源限制为16核CPU和32GB内存。
  • 终端基准测试2.0(Claude代码版):在Claude Code 2.1.14(思考模式,默认计算量)中评估,参数为temperature=1.0, top_p=0.95, max_new_tokens=65536。由于生成速度差异,我们移除了挂钟时间限制,但保留每项任务的CPU和内存约束。分数取5次运行的平均值。我们修复了Claude Code引入的环境问题,并在已消除歧义指令的验证版Terminal-Bench 2.0数据集上补充了结果(参见:https://huggingface.co/datasets/zai-org/terminal-bench-2-verified)。
  • 网络攻防演练(CyberGym):在Claude Code 2.1.18(思考模式,禁用网页工具)中评估,参数为temperature=1.0, top_p=1.0, max_new_tokens=32000,每项任务限时250分钟。结果基于1,507项任务的单次Pass@1通过率。
  • MCP-Atlas图谱测试:所有模型均在500项公开子集的思考模式下评估,每项任务限时10分钟。我们使用Gemini 3 Pro作为评判模型。
  • τ²基准测试:在零售和电信领域添加了小型提示调整,以避免因用户提前终止导致的失败。针对航空领域,我们应用了Claude Opus 4.5系统卡中提出的领域修复方案。
  • 自动售货机基准测试2:由安顿实验室独立运行。

本地部署GLM-5

环境准备

vLLM、SGLang和xLLM均支持GLM-5的本地部署。此处提供简易部署指南。

vLLM使用 Docker 作为:

docker pull vllm/vllm-openai:nightly 

或者使用 pip:

```shell pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly ``` 

然后升级transformers:

``` pip install git+https://github.com/huggingface/transformers.git ``` 

SGLang使用 Docker 作为:

docker pull lmsysorg/sglang:glm5-hopper # For Hopper GPUdocker pull lmsysorg/sglang:glm5-blackwell # For Blackwell GPU

部署

vLLM

vllm serve zai-org/GLM-5-FP8 \ --tensor-parallel-size 8\ --gpu-memory-utilization 0.85\ --speculative-config.method mtp \ --speculative-config.num_speculative_tokens 1\ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --enable-auto-tool-choice \ --served-model-name glm-5-fp8 

查看配方获取更多详情。

  • xLLM 及其他昇腾 NPU请查阅部署指南 此处

SGLang

python3 -m sglang.launch_server \ --model-path zai-org/GLM-5-FP8 \ --tp-size 8\ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --speculative-algorithm EAGLE \ --speculative-num-steps 3\ --speculative-eagle-topk 1\ --speculative-num-draft-tokens 4\ --mem-fraction-static 0.85\ --served-model-name glm-5-fp8 

查看 sglang 教程 获取更多细节。

Read more

SpringBoot+Vue 厨艺交流平台管理平台源码【适合毕设/课设/学习】Java+MySQL

SpringBoot+Vue 厨艺交流平台管理平台源码【适合毕设/课设/学习】Java+MySQL

摘要 随着互联网技术的快速发展和人们生活水平的不断提高,越来越多的人开始关注烹饪与美食文化。传统的厨艺交流方式受限于时间和空间,难以满足现代人对便捷、高效交流的需求。基于此,开发一款基于SpringBoot和Vue的厨艺交流平台管理平台具有重要的现实意义。该平台旨在为用户提供一个便捷的厨艺分享与学习环境,支持菜谱发布、评论互动、收藏管理等功能,同时为管理员提供用户管理、内容审核等后台操作权限。关键词:厨艺交流、SpringBoot、Vue、MySQL、管理平台。 该平台采用前后端分离的架构设计,前端使用Vue框架实现响应式布局和动态交互,后端基于SpringBoot框架搭建RESTful API接口,数据库采用MySQL存储用户信息、菜谱数据和互动记录。系统功能模块包括用户注册登录、菜谱发布与搜索、评论与点赞、收藏夹管理以及后台数据统计分析等。通过该平台,用户可以轻松分享自己的烹饪心得,学习他人的厨艺技巧,同时管理员能够高效管理平台内容,确保信息的准确性与安全性。关键词:前后端分离、RESTful API、响应式布局、数据统计、内容管理。 数据表 用户信息数据表 用户注册和登

By Ne0inhk
Java 大视界 -- 基于 Java 的大数据可视化在企业人力资源管理与人才发展战略制定中的应用实战(432)

Java 大视界 -- 基于 Java 的大数据可视化在企业人力资源管理与人才发展战略制定中的应用实战(432)

Java 大视界 -- 基于 Java 的大数据可视化在企业人力资源管理与人才发展战略制定中的应用实战(432) * 引言: * 正文: * 一、企业人力资源管理的核心痛点与可视化价值 * 1.1 行业核心痛点(基于德勤《2024 人力资源数字化转型报告》) * 1.2 Java 大数据可视化的核心价值(实战验证适配性) * 二、技术架构设计实战 * 2.1 核心技术栈选型(生产压测验证版) * 三、核心可视化场景实战(附完整代码) * 3.1 场景一:核心人才流失预警看板 * 3.1.1 业务需求 * 3.1.2 数据准备(Flink SQL 指标计算) * 3.1.3 可视化实现代码(

By Ne0inhk
【入门篇】一键搞定 Java 环境配置,从 0 跑出你的第一个程序

【入门篇】一键搞定 Java 环境配置,从 0 跑出你的第一个程序

🎬 博主名称:超级苦力怕 🔥 个人专栏:《Java成长录》《AI 工具使用目录》 🚀 每一次思考都是突破的前奏,每一次复盘都是精进的开始! 前言 本文主要内容:介绍 Java 语言的发展背景、运行架构,以及如何搭建开发环境。 适合人群:尚未入门的 Java 学习者。 阅读收益:看完你将对 Java 有一个初步认知,并完成 JDK + IDEA 的环境搭建,为后续学习变量、数据类型和流程控制打下基础。 文章目录 * 前言 * 1. Java概述 * 1.1 什么是 Java * 2. 环境准备 * 2.1 JDK的配置 * 2.1.1 JDK概述 * 2.1.2 快速下载

By Ne0inhk
Java 手写 AI Agent:ZenoAgent 实战笔记

Java 手写 AI Agent:ZenoAgent 实战笔记

摘要:作为一个长期使用 Java 的后端开发者,我对 AI Agent 的内部运作机制充满了好奇。为了深入理解 Agent 的工作原理,我决定动手写一个简单的 Agent 系统 —— ZenoAgent。本文记录了我在这个过程中的学习心得与技术实践,包括如何手写 ReAct 循环、在分布式环境下实现 Human-in-the-loop、尝试复刻类 o1 的流式思考以及探索错误处理机制。希望这些踩坑经验能给同样想探索 AI 的 Java 开发者一些参考。 👀 在线体验:项目已部署上线,欢迎试玩:线上部署地址 (注:受限于服务器资源,线上本地部署了 Qwen3:8B 模型(参见另一篇博文华为云服务器本地部署大模型实战),虽不如商业模型聪明,但足以演示 Agent 的核心能力) 💡 写在前面:我的学习初衷 市面上已经有了像 LangChain 和 AutoGen

By Ne0inhk