2025 AI 大模型年终盘点：谷歌反超国产爆发三大榜单解析 | 极客日志

编程语言AI算法

2025 AI 大模型年终盘点：谷歌反超国产爆发三大榜单解析

基于 LMArena、LiveBench、Artificial Analysis 三大权威榜单，盘点 2025 年 AI 大模型格局。谷歌 Gemini 3 在文本对话和多模态领域登顶，Anthropic Claude Opus 4.5 在代码和智能体任务上领先，OpenAI GPT-5 系列表现不及预期。国产模型如智谱 GLM、DeepSeek、Kimi 等在多个赛道进入全球前列。文章提供了针对不同场景的模型选择建议。

草莓泡芙发布于 2026/4/6更新于 2026/4/178 浏览

2025 AI 大模型年终盘点：谷歌反超国产爆发三大榜单解析

2026 年第一天，盘点过去一年的 AI 大模型格局。

这篇文章汇总了 LMArena、LiveBench、Artificial Analysis 三大权威平台截至 2025 年 12 月底的最新排名。

数据量很大，先说结论。

谷歌 Gemini 3 成功逆袭，拿下文本对话和多模态的双料冠军；OpenAI GPT-5 系列不及预期，勉强守住推理和搜索的阵地；偏科生 Anthropic Claude Opus 4.5 在代码和智能体任务上继续称王。

而国产大模型的表现，是今年最大的惊喜。

01｜三大榜单，各测什么？

简单介绍我最常看的三个榜单。

LMArena（原 Chatbot Arena）由加州大学伯克利分校 LMSYS 团队开发，采用类似国际象棋的 Elo 评分系统。

用户在平台上和两个匿名模型对话，投票选出更好的那个。

累计超过 500 万次真人投票，几乎是 AI 领域的「黄金标准」。

它现在细分出多个榜单：Text Arena（文本对话）、WebDev（网页开发）、Vision（视觉理解）、Text-to-Image（文生图）、Image Edit（图像编辑）、Search（搜索能力）。

LiveBench 是一个「防污染」的学术基准测试，已被 ICLR 2025 收录为 Spotlight Paper。

核心特点是每月更新测试题目，来源包括最新数学竞赛（AMC、AIME、IMO）、arXiv 论文、新闻文章等。

所有问题都有客观标准答案，不依赖 LLM 当评委，避免了「AI 评 AI」的偏差。

Artificial Analysis 是独立 AI 模型评测机构。

最新的 Intelligence Index v3.0 综合了 10 项评估，覆盖知识、推理、数学、编程、指令遵循、长文本理解、智能体任务等维度。

三个平台评测方法不同，但互为补充。

一句话总结：「LMArena 测真人偏好，LiveBench 测客观能力，Artificial Analysis 测综合智商。」

02｜文本对话：谷歌 Gemini 3 登顶

Text Arena 是 LMArena 最核心的榜单，截至 12 月 30 日累计投票数近 500 万。

文章配图

榜首是谷歌 gemini-3-pro，得分 1490。

更魔幻的是，第二名还是谷歌，gemini-3-flash 得分 1480。

马斯克 xAI 的 grok-4.1-thinking 以 1477 分排第三。

Anthropic 的 claude-opus-4-5 系列分列四、五位，得分 1470 和 1467。

OpenAI 的 gpt-5.1-high 排到了第八，得分 1458。

2024 年，谷歌 Gemini 还在被 GPT 和 Claude 压着打。

现在，直接翻盘。

03｜前端代码：Claude 继续称王

WebDev Leaderboard 测试模型写前端代码的能力，截至 12 月 29 日累计 8 万票。

文章配图

Anthropic 以 1512 分遥遥领先，比第二名 OpenAI 的（1480 分）高 32 分。

极客日志微信公众号二维码

更多推荐文章

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

claude-opus-4-5-20251101-thinking-32k

gpt-5.2-high