GLM-4.5 深度技术解析:智谱AI打造的全能开源基座模型

推理、编码、智能体三位一体——一个模型,三大核心能力

一、引言

长期以来,AI领域存在一个"不可能三角":推理能力编码能力智能体能力很难在一个模型中同时达到顶级水平。开发者往往需要在不同任务间切换不同模型,这不仅增加了系统复杂度,也制约了真正智能的自主Agent应用的落地。

2025年,智谱AI(Zhipu AI / Z.ai)发布了 GLM-4.5 系列,打破了这一困局。这是一个基于 Mixture-of-Experts (MoE) 架构的开源大语言模型家族,在推理、编码和智能体(Agentic)三个维度上同时达到了开源模型的顶尖水平,并在12项行业标准基准测试中综合排名第3,仅次于极少数顶级闭源模型。

更重要的是,GLM-4.5 系列采用 MIT 开源协议发布,支持商用和二次开发,为整个开源社区带来了巨大价值。


二、模型家族一览

GLM-4.5 系列包含两个核心语言模型和一个视觉语言模型:

模型总参数量激活参数量上下文长度定位
GLM-4.5355B32B128K旗舰模型,追求极致性能
GLM-4.5-Air106B12B128K轻量高效版,性价比之选
GLM-4.5V基于GLM-4.5-Air12B128K视觉语言模型,支持图像与视频理解

两个语言模型均为混合推理模型(Hybrid Reasoning Model),支持两种工作模式:

  • Thinking 模式:针对复杂任务进行深度推理和工具调用,类似 Chain-of-Thought 的逐步思考
  • Non-thinking 模式:针对简单查询快速响应,降低延迟

三、架构设计:深度优先的MoE创新

3.1 "更深而非更宽"的设计哲学

与 DeepSeek-V3 等同类模型倾向于扩展模型宽度不同,GLM-4.5 采取了**“深度优先”**的设计策略——更多的层数、相对更小的隐藏维度。团队的实验表明,在同等算力预算下,更深的网络结构能显著提升推理能力。

3.2 MoE路由机制

GLM-4.5 使用了**无损失平衡路由(Loss-free Balance Routing)**配合 Sigmoid 门控机制:

  • 每个 token 只激活一小部分专家(32B/355B 或 12B/106B),大幅降低推理时的计算开销
  • 路由策略避免了传统 MoE 中常见的负载不均衡问题
  • 既保留了大模型的知识容量,又实现了小模型级别的推理效率

3.3 注意力机制的创新

GLM-4.5 在注意力层引入了多项关键优化:

  • 分组查询注意力(Grouped-Query Attention, GQA):提升推理效率,减少 KV Cache 开销
  • 部分 RoPE 位置编码:灵活处理不同长度的序列
  • QK-Norm:对注意力 logits 进行归一化,稳定训练过程
  • 96 个注意力头:在隐藏维度为 5,120 的配置下,使用了约 2.5 倍于常规设计的注意力头数量

一个有趣的发现是:虽然更多的注意力头并未降低训练 loss,但在 MMLU、BBH 等推理基准测试上却带来了持续的性能提升——这是一个"优化指标 vs 泛化能力"之间权衡取舍的绝佳案例。

3.4 多 Token 预测(Multi-Token Prediction, MTP)

GLM-4.5 内置了 MTP 预测头,配合 EAGLE 推测解码算法,可在推理时一次性预测多个 token,从而将推理速度提升 2-3 倍。


四、训练流程:三阶段课程式学习

GLM-4.5 的训练采用了精心设计的多阶段课程(Curriculum):

预训练 (Pre-training) → 中期训练 (Mid-training) → 后训练 (Post-training) ↓ 

Read more

Vitis使用教程:从零实现AI模型FPGA部署

从零开始:用Vitis把AI模型部署到FPGA上,我走过的每一步都算数 最近在做边缘AI推理项目时,被一个现实问题卡住了:GPU功耗太高,端侧跑不动;云端延迟又太大,实时性扛不住。于是我把目光转向了FPGA——这块曾经“难啃”的硬件,如今在 Vitis 的加持下,竟然也能像写软件一样开发AI加速器。 今天我想和你分享的,不是一篇冷冰冰的技术文档,而是一次真实的、手把手带你从模型训练到板级验证的全过程实战记录。如果你也想让自己的PyTorch模型在KV260开发板上跑出上千FPS,同时保持极低功耗,那这篇文值得你完整读一遍。 为什么是FPGA?为什么是Vitis? 先说结论: FPGA + Vitis AI = 边缘智能场景下的“黄金组合” 传统印象里,FPGA开发等于Verilog、时序约束、逻辑综合……门槛高得吓人。但Xilinx(现AMD)推出的 Vitis统一平台 彻底改变了这一点。它允许我们用C/C++甚至Python来描述算法,再通过 高层次综合(HLS) 自动生成硬件电路。 更关键的是,

【面试分享】前端 React 50个基础高频面试题,助你轻松拿 offer!

【面试分享】前端 React 50个基础高频面试题,助你轻松拿 offer!

目录 前端基础高频面试题之-- React 篇 1、什么是React? 2、React有什么特点? 3、列出React的一些主要优点。 4、React有哪些限制? 5、什么是JSX? 6、为什么浏览器无法读取JSX? 7、React中的组件是什么? 8、怎样解释 React 中 render() 的目的。 9、什么是 Props? 10、React中的状态是什么?它是如何使用的? 11、 React 中的箭头函数是什么?使用箭头函数的好处? 12、什么是高阶组件(HOC)? 13、你能用HOC做什么? 14、什么是纯组件? 16、什么是React 路由? 17、为什么 useState 返回的是数组而不是对象? 18、如何实现

【Web开发】从入门到精通,全面解析 Web 开发的过去、现在与未来

【Web开发】从入门到精通,全面解析 Web 开发的过去、现在与未来

目录 一、Web 开发概述:重新理解 “构建互联网的技术” 1.1 Web 的诞生:一个改变世界的 “简单想法” 1.2 Web 开发的核心定义:不是 “写网页”,而是 “构建交互系统” 1.3 Web 开发的三大分支:前端、后端与全栈 1.3.1 前端开发:用户 “看得到、摸得着” 的层 1.3.2 后端开发:用户 “看不到,但离不开” 的层 1.3.3 全栈开发:“打通前后端” 的全能角色 1.4

前端高频面试题-场景题,零基础入门到精通,收藏这篇就够了

1、一般vue开发用什么库来辅助 vantUI elementUI js-cookie socket.io axios ECharts 2、页面刚开始出现一片空白的原因 1、网络设置的问题,有可能是IP、端口等出现问题了 2、网速比较慢导致(加载速度慢) 3、浏览器本身出现问题了 4、网络防火墙的问题,设置安全级别过高 5、病毒导致 6、打包路径不对 3、vue的项目如何做首屏的优化 v-if 和 v-show 区分使用场景 computed 和 watch 区分使用场景 v-for 遍历必须为 item 添加 key,且避免同时使用 v-if 长列表性能优化 事件的销毁 addEventlisenter 事件监听 图片资源懒加载 精灵图