2026 年第一天,盘点过去一年的 AI 大模型格局。
这篇文章汇总了 LMArena、LiveBench、Artificial Analysis 三大权威平台截至 2025 年 12 月底的最新排名。
数据量很大,先说结论。
谷歌
Gemini 3成功逆袭,拿下文本对话和多模态的双料冠军;OpenAIGPT-5系列不及预期,勉强守住推理和搜索的阵地;偏科生 AnthropicClaude Opus 4.5在代码和智能体任务上继续称王。
而国产大模型的表现,是今年最大的惊喜。
01|三大榜单,各测什么?
简单介绍我最常看的三个榜单。
LMArena(原 Chatbot Arena)由加州大学伯克利分校 LMSYS 团队开发,采用类似国际象棋的 Elo 评分系统。
用户在平台上和两个匿名模型对话,投票选出更好的那个。
累计超过 500 万次真人投票,几乎是 AI 领域的「黄金标准」。
它现在细分出多个榜单:Text Arena(文本对话)、WebDev(网页开发)、Vision(视觉理解)、Text-to-Image(文生图)、Image Edit(图像编辑)、Search(搜索能力)。
LiveBench 是一个「防污染」的学术基准测试,已被 ICLR 2025 收录为 Spotlight Paper。
核心特点是每月更新测试题目,来源包括最新数学竞赛(AMC、AIME、IMO)、arXiv 论文、新闻文章等。
所有问题都有客观标准答案,不依赖 LLM 当评委,避免了「AI 评 AI」的偏差。
Artificial Analysis 是独立 AI 模型评测机构。
最新的 Intelligence Index v3.0 综合了 10 项评估,覆盖知识、推理、数学、编程、指令遵循、长文本理解、智能体任务等维度。
三个平台评测方法不同,但互为补充。
一句话总结:「LMArena 测真人偏好,LiveBench 测客观能力,Artificial Analysis 测综合智商。」
02|文本对话:谷歌 Gemini 3 登顶
Text Arena 是 LMArena 最核心的榜单,截至 12 月 30 日累计投票数近 500 万。

榜首是谷歌 gemini-3-pro,得分 1490。
更魔幻的是,第二名还是谷歌,gemini-3-flash 得分 1480。
马斯克 xAI 的 grok-4.1-thinking 以 1477 分排第三。
Anthropic 的 claude-opus-4-5 系列分列四、五位,得分 1470 和 1467。
OpenAI 的 gpt-5.1-high 排到了第八,得分 1458。
2024 年,谷歌 Gemini 还在被 GPT 和 Claude 压着打。
现在,直接翻盘。
03|前端代码:Claude 继续称王
WebDev Leaderboard 测试模型写前端代码的能力,截至 12 月 29 日累计 8 万票。

Anthropic 以 1512 分遥遥领先,比第二名 OpenAI 的 (1480 分)高 32 分。










