GLM-4.5 深度技术解析：智谱AI打造的全能开源基座模型

优质文章学习记录

06 Apr 2026 — 3 min read

推理、编码、智能体三位一体——一个模型，三大核心能力

一、引言

长期以来，AI领域存在一个"不可能三角"：推理能力、编码能力和智能体能力很难在一个模型中同时达到顶级水平。开发者往往需要在不同任务间切换不同模型，这不仅增加了系统复杂度，也制约了真正智能的自主Agent应用的落地。

2025年，智谱AI（Zhipu AI / Z.ai）发布了 GLM-4.5 系列，打破了这一困局。这是一个基于 Mixture-of-Experts (MoE) 架构的开源大语言模型家族，在推理、编码和智能体（Agentic）三个维度上同时达到了开源模型的顶尖水平，并在12项行业标准基准测试中综合排名第3，仅次于极少数顶级闭源模型。

更重要的是，GLM-4.5 系列采用 MIT 开源协议发布，支持商用和二次开发，为整个开源社区带来了巨大价值。

二、模型家族一览

GLM-4.5 系列包含两个核心语言模型和一个视觉语言模型：

模型	总参数量	激活参数量	上下文长度	定位
GLM-4.5	355B	32B	128K	旗舰模型，追求极致性能
GLM-4.5-Air	106B	12B	128K	轻量高效版，性价比之选
GLM-4.5V	基于GLM-4.5-Air	12B	128K	视觉语言模型，支持图像与视频理解

两个语言模型均为混合推理模型（Hybrid Reasoning Model），支持两种工作模式：

Thinking 模式：针对复杂任务进行深度推理和工具调用，类似 Chain-of-Thought 的逐步思考
Non-thinking 模式：针对简单查询快速响应，降低延迟

三、架构设计：深度优先的MoE创新

3.1 "更深而非更宽"的设计哲学

与 DeepSeek-V3 等同类模型倾向于扩展模型宽度不同，GLM-4.5 采取了**“深度优先”**的设计策略——更多的层数、相对更小的隐藏维度。团队的实验表明，在同等算力预算下，更深的网络结构能显著提升推理能力。

3.2 MoE路由机制

GLM-4.5 使用了**无损失平衡路由（Loss-free Balance Routing）**配合 Sigmoid 门控机制：

每个 token 只激活一小部分专家（32B/355B 或 12B/106B），大幅降低推理时的计算开销
路由策略避免了传统 MoE 中常见的负载不均衡问题
既保留了大模型的知识容量，又实现了小模型级别的推理效率

3.3 注意力机制的创新

GLM-4.5 在注意力层引入了多项关键优化：

分组查询注意力（Grouped-Query Attention, GQA）：提升推理效率，减少 KV Cache 开销
部分 RoPE 位置编码：灵活处理不同长度的序列
QK-Norm：对注意力 logits 进行归一化，稳定训练过程
96 个注意力头：在隐藏维度为 5,120 的配置下，使用了约 2.5 倍于常规设计的注意力头数量

一个有趣的发现是：虽然更多的注意力头并未降低训练 loss，但在 MMLU、BBH 等推理基准测试上却带来了持续的性能提升——这是一个"优化指标 vs 泛化能力"之间权衡取舍的绝佳案例。

3.4 多 Token 预测（Multi-Token Prediction, MTP）

GLM-4.5 内置了 MTP 预测头，配合 EAGLE 推测解码算法，可在推理时一次性预测多个 token，从而将推理速度提升 2-3 倍。

四、训练流程：三阶段课程式学习

GLM-4.5 的训练采用了精心设计的多阶段课程（Curriculum）：

预训练 (Pre-training) → 中期训练 (Mid-training) → 后训练 (Post-training) ↓

Vitis使用教程：从零实现AI模型FPGA部署

从零开始：用Vitis把AI模型部署到FPGA上，我走过的每一步都算数最近在做边缘AI推理项目时，被一个现实问题卡住了：GPU功耗太高，端侧跑不动；云端延迟又太大，实时性扛不住。于是我把目光转向了FPGA——这块曾经“难啃”的硬件，如今在 Vitis 的加持下，竟然也能像写软件一样开发AI加速器。今天我想和你分享的，不是一篇冷冰冰的技术文档，而是一次真实的、手把手带你从模型训练到板级验证的全过程实战记录。如果你也想让自己的PyTorch模型在KV260开发板上跑出上千FPS，同时保持极低功耗，那这篇文值得你完整读一遍。为什么是FPGA？为什么是Vitis？先说结论： FPGA + Vitis AI = 边缘智能场景下的“黄金组合” 传统印象里，FPGA开发等于Verilog、时序约束、逻辑综合……门槛高得吓人。但Xilinx（现AMD）推出的 Vitis统一平台彻底改变了这一点。它允许我们用C/C++甚至Python来描述算法，再通过高层次综合（HLS）自动生成硬件电路。更关键的是，

【面试分享】前端 React 50个基础高频面试题，助你轻松拿 offer！

目录前端基础高频面试题之-- React 篇 1、什么是React？ 2、React有什么特点？ 3、列出React的一些主要优点。 4、React有哪些限制？ 5、什么是JSX？ 6、为什么浏览器无法读取JSX？ 7、React中的组件是什么？ 8、怎样解释 React 中 render() 的目的。 9、什么是 Props? 10、React中的状态是什么？它是如何使用的？ 11、 React 中的箭头函数是什么？使用箭头函数的好处？ 12、什么是高阶组件（HOC）？ 13、你能用HOC做什么？ 14、什么是纯组件？ 16、什么是React 路由？ 17、为什么 useState 返回的是数组而不是对象？ 18、如何实现

【Web开发】从入门到精通，全面解析 Web 开发的过去、现在与未来

目录一、Web 开发概述：重新理解 “构建互联网的技术” 1.1 Web 的诞生：一个改变世界的 “简单想法” 1.2 Web 开发的核心定义：不是 “写网页”，而是 “构建交互系统” 1.3 Web 开发的三大分支：前端、后端与全栈 1.3.1 前端开发：用户 “看得到、摸得着” 的层 1.3.2 后端开发：用户 “看不到，但离不开” 的层 1.3.3 全栈开发：“打通前后端” 的全能角色 1.4

前端高频面试题-场景题，零基础入门到精通，收藏这篇就够了

1、一般vue开发用什么库来辅助 vantUI elementUI js-cookie socket.io axios ECharts 2、页面刚开始出现一片空白的原因 1、网络设置的问题，有可能是IP、端口等出现问题了 2、网速比较慢导致（加载速度慢） 3、浏览器本身出现问题了 4、网络防火墙的问题，设置安全级别过高 5、病毒导致 6、打包路径不对 3、vue的项目如何做首屏的优化 v-if 和 v-show 区分使用场景 computed 和 watch 区分使用场景 v-for 遍历必须为 item 添加 key，且避免同时使用 v-if 长列表性能优化事件的销毁 addEventlisenter 事件监听图片资源懒加载精灵图