AI学习笔记整理(67)——大模型的Benchmark(基准测试)

大模型的Benchmark(基准测试)

参考链接:https://zhuanlan.zhihu.com/p/22244946778

大模型的Benchmark(基准测试)是用于评估和比较大型机器学习模型(如GPT、BERT、PaLM等)性能的一系列标准化任务、数据集和评价指标。这些Benchmark为大模型的开发者和使用者提供了一个统一的评估框架,帮助研究人员和开发者衡量模型在不同领域(如语言理解、生成、推理等)的能力,推动技术进步,同时也为用户在选择适合特定任务的大模型时提供参考依据。

评价指标则包括客观指标,主观指标和效率指标等。

  • 客观指标:
    • 分类/问答:Accuracy、F1、EM(精确匹配)。
    • 生成任务:BLEU、ROUGE、BERTScore(语义相似度)。
    • 代码任务:Pass@k(生成代码通过单元测试的比例)。
  • 主观指标:人工评分(流畅性、逻辑性、实用性)。
  • 效率指标:推理速度、显存占用、能耗(尤其边缘设备场景)。

PASS@1是评估模型性能的一个指标,特别是在自然语言处理(NLP)和代码生成任务中常用。它表示模型在测试集中正确预测第一个单词的准确率。具体来说,‌PASS@1‌衡量的是模型在给定上下文后,第一次尝试就正确生成或选择正确答案的比例。

Benchmark的评估指标

大模型的Benchmark 评价指标用于量化模型在不同任务中的性能表现,以下是详细的分类和解释:

通用语言任务指标

  1. 准确率(Accuracy):预测正确的样本占总样本的比例。 适用分类、问答(如选项选择题)等任务。缺点是对类别不平衡的数据不敏感(例如99%的负样本时,模型全预测负也能高准确率)。
  2. F1 Score:精确率(Precision)和召回率(Recall)的调和平均数,公式为:

    适用二分类或多分类任务(如情感分析、命名实体识别)。平衡了误报(False Positive)和漏报(False Negative)。
  3. 精确匹配(Exact Match, EM):模型输出与标准答案完全一致的比例(例如“北京”与“北京市”不匹配)。适用封闭式问答(如SQuAD)、代码生成(输出需完全正确)等任务。
    文本生成任务指标
  4. BLEU(Bilingual Evaluation Understudy):通过比较生成文本与参考文本的n-gram重叠度计算得分(1~4-gram加权)。适用机器翻译、文本摘要等任务。缺点是忽略语义,对同义表达不友好。
  5. ROUGE(Recall-Oriented Understudy for Gisting Evaluation):衡量生成文本与参考文本的召回率(ROUGE-N)、最长公共子序列(ROUGE-L)等。适用摘要生成(更关注关键信息覆盖)等任务。常见变体包括ROUGE-N:n-gram重叠率;ROUGE-L:基于最长公共子序列的相似度。
  6. Pass@k:生成k个代码样本中至少有一个通过单元测试的比例。适用代码生成(如HumanEval)任务。 常见的Pass@1表示首次生成即正确的概率。
  7. 数学准确率(Math Accuracy):模型解决数学问题的正确率(需步骤和答案均正确)。适用数学推理(如GSM8K、MATH)等任务。变体包括步骤分等,即部分正确步骤也可得分。
    多模态任务指标
  8. CIDEr(Consensus-based Image Description Evaluation):通过TF-IDF加权n-gram匹配评估图像描述生成质量。适用图像字幕生成等任务。
  9. mAP(mean Average Precision):目标检测中,综合不同IoU阈值下的平均精度。 适用视觉问答(VQA)、物体检测等任务。
    伦理与安全性指标
  10. Toxicity Score:使用分类模型(如Perspective API)检测生成文本的毒性比例。适用内容安全评估任务。
  11. Bias Score:统计模型输出中涉及性别、种族等敏感属性的偏见程度(如StereoSet数据集)。例如职业关联性测试(“护士”是否总被关联为女性)。
    效率指标
  12. 推理速度(Tokens/sec):每秒生成的token数量,衡量实时性。影响要素包括模型参数量、硬件(GPU/TPU)。
  13. 显存占用(GPU Memory):推理或训练时的显存使用量(如GB为单位)。可以决定模型能否在边缘设备部署。
    人类评估(Human Evaluation)
    当自动指标不足时,需人工评估:包括流畅性(Fluency):文本是否通顺;相关性(Relevance):内容是否切题;有用性(Usefulness):是否解决实际问题(如客服对话)等。

Perplexity(困惑度,PPL):衡量模型对测试数据的预测不确定性,值越低越好。公式为:

在这里插入图片描述


适用语言模型预训练评估等任务。缺点是无法直接反映生成质量(如流畅但无意义的文本可能PPL低)。
代码与推理任务指标

BERTScore:利用BERT模型计算生成文本与参考文本的语义相似度(基于词向量余弦相似度)。优点是可以捕捉语义一致性,优于n-gram方法。

在这里插入图片描述

指标选择原则
任务匹配性:

  • 分类任务 → Accuracy/F1
  • 生成任务 → BLEU/ROUGE/BERTScore
  • 代码任务 → Pass@k

多维度综合:例如同时评估准确性(EM)和效率(Tokens/sec)。
避免单一指标陷阱:例如BLEU高但语义错误(需结合人工评估)。

大模型的智能体能力、推理能力、coding能力如何评估

参考链接:https://blog.ZEEKLOG.net/2401_84204207/article/details/156268830

评估大语言模型(LLM)的智能体能力、推理能力和编程(coding)能力,需要结合特定的基准测试、任务设计和量化指标。以下是基于当前公开资料的综合评估方法:
智能体能力(Agent)评估
智能体(Agent)指能自主规划、调用工具并完成多步任务的AI系统,其评估侧重于自主性、协作效率和任务完成质量。

  • 自主执行成功率‌:Agent在无人工干预下,独立完成端到端任务(如重构代码模块、迁移库)的成功率,是核心指标。‌
  • 人机协作比‌:完成一个任务中,人类下达指令的次数与Agent自动执行步骤的比例。比值越低,表明自动化程度越高。‌
  • 任务完成率与正确率‌:在标准化任务(如MultiWOZ对话管理、WebShop购物)中,评估Agent能否准确理解目标、调用正确工具并达成预期结果。‌
  • 工具调用准确性‌:评估Agent选择和使用外部工具(如API、搜索引擎、代码解释器)的精准度和效率。‌
  • 基准案例:
    • τ²-bench (逼真的“客服模拟战”):目前 Agent 落地最广泛的场景就是企业的智能客服了,而 τ²-bench(也叫 Tau2-bench)就是模拟了一个真实的 “客服对话智能体” 场景,它专门构建了一个 “用户模拟器” 和一个 “环境数据库”。模型扮演客服(比如电信公司客服),必须在满足刁钻用户需求的同时,严格遵守公司的隐形规定。
    • MCP-Atlas(更通用的多工具工作流智能体):Anthropic 推出的模型上下文协议 (MCP) 协议已经成为了 AI 连接外部世界的标准。MCP-Atlas 通过 MCP 评估语言模型处理实际工具使用情况的能力,它直接给模型一张 “工具地图(Atlas)” ,包含 40 多个不同服务器、300 多个工具的复杂环境。模型必须自己发现合适的工具、正确调用,并把多步结果汇总成最终答案。

推理能力(Reasoning)评估
如果说“通用学科知识”是考大模型的“记忆力”(看它背了多少书),那么“推理能力”考的就是它的“脑力”(看它聪不聪明,逻辑转不转得过来)。
推理能力涵盖数学、常识、多步逻辑和因果推断,通常通过结构化基准测试衡量。

  • 数学推理‌:使用‌GSM8K‌数据集,评估模型解决小学数学应用题的能力,要求模型生成正确推理链。‌
  • 常识与多跳推理‌:使用‌CommonsenseQA‌、‌StrategyQA‌等数据集,测试模型对隐含常识和多步逻辑关系的理解。‌
  • 跨学科知识‌:‌MMLU‌(Massive Multitask Language Understanding)涵盖57个学科的多项选择题,全面检验模型的知识广度与深度。‌
  • 逻辑一致性‌:通过定制的逻辑谜题或对话场景,评估模型输出是否自洽、无矛盾。‌
  • 基准案例:
    • HellaSwag:能不能听懂“人话”的常识测试:简单来说,它考的是 “补全句子” ,但补全的不是古诗词,而是生活常识。它专门设计了一些对人类来说显而易见,但对早期的 AI 来说极容易掉坑里的题目。
    • GPQA Diamond:研究生的“噩梦”:GPQA 全称: A Graduate-Level Google-Proof Q&A Benchmark(研究生级别的防 Google 问答测试)。两个关键词:研究生水平 + 防 Google(Google-Proof)。这里面的题目,由生物学、物理学、化学等领域的 博士专家 编写。最变态的是,这些题目被设计成 “即使你把题目复制到 Google 搜索,也搜不到直接答案” 。你必须真正理解这个领域的原理,经过复杂的推导才能做出来。
    • HLE:人类最后的防线:HLE 全称: Humanity’s Last Exam(人类最后的考试)。HLE 的设计初衷是:如果我们再不出这套题,AI 可能就要超越人类现有的评估手段了。如果 AI 能在这套题上拿满分,那我们基本可以说人类已经阻挡不住 AI 了。HLE 是一次全球协作:采用了带奖金的征集与审核流程,题目来自近 1000 名各个领域的顶尖专家贡献,覆盖 500+ 机构、50 个国家。公开题库的规模经历过收敛,最终形成 2,500 道题的定稿版本。这些题目通常具有极强的综合性和抽象性。很多题目不再是简单的“问答”,而是给出一张复杂的工程图纸,或者一段模糊的医学影像,结合一段很长的背景描述,问你一个极度细节的推断。

编程能力(coding)评估
编程能力评估关注代码生成、理解、调试和优化的综合水平,尤其在开发者辅助场景中。‌

  • 代码采纳率‌:开发者接受AI生成代码建议的比例,是反映实用性的关键指标,行业标杆通常在30%-50%之间。‌
  • AI生成占比‌:最终合入主干代码中,由AI生成的代码行数占总行数的比例,衡量AI贡献度。‌
  • 入库/合入率‌:AI参与生成的Pull Request(PR)或Merge Request(MR)被成功合并的比例,反映代码的可用性和质量。‌
  • 千行代码Bug率‌:对比引入AI前后的代码缺陷密度,评估AI辅助对代码质量的提升效果。‌
  • 单元测试覆盖率增量‌:AI自动生成测试用例的能力,通常在引入后有显著提升。‌
  • 基准测试‌:使用‌HumanEval‌或‌MBPP‌(Mostly Basic Python Problems)等数据集,通过函数级代码生成任务,评估模型的编程准确性和逻辑实现能力。‌
  • 基准案例:
    • HumanEval:写函数题:HumanEval 可以说是代码评估的 “鼻祖” ,也是很多小模型的入门考试。它由 OpenAI 发布,包含 164 个手写的编程问题。题目很单纯,不依赖外部库,只考基本的 Python 语法和逻辑。它会给你一个函数头和一段注释(Docstring),让你把函数体补全。
    • SWE-bench:真实仓库修 Issue:SWE-bench 是大模型从 “做题家” 变成 “工程师” 的分水岭。它不再考孤立的算法题,而是直接从 GitHub 上扒拉下来真实的开源项目(比如 Django、scikit-learn、Flask),拿出用户真实提交过的 Issue(Bug、需求) 和对应的 Pull Request(修复代码),让模型去复现修复过程。数据集中会保留代码库当时的快照(commit hash),整个项目的代码库(可能几十万行),而 Issue 的描述可能非常简单(比如“用户反馈在特定版本下,存在数据泄露问题”)。模型必须自己阅读代码,找到是哪个文件的哪一行出了问题,然后写出修复补丁(Patch),也就是“你要改哪些文件的哪些行”。
    • SWE-bench Pro:更真实的工程修复:基础原版的 SWE-bench 主要是 Python 项目,而且随着模型越来越强,原版题库已经被做透了,需要一个更“像真实工作”的新基准。于是 SWE-bench Pro 诞生了,它的数据集格式和基础版的 SWE-bench 保持一致,但是重点解决了下面几个问题:
      • [数据污染] 训练时可能见过代码/解法,导致分数虚高,因此引入一部分私有或商业代码,尽量降低“模型背答案”的可能性。
      • [任务多样性不足] 只在少数类型仓库上“刷题式”变强,因此新引入了 Java、JavaScript、Go 等多种语言。
      • [问题过于干净] 模糊不清或定义不明确的问题一般会从基准测试中移除,但这并不能反映真实开发工作流程,真实工程里很多需求其实是含糊/不完整的。

综上,评估需采用‌定性与定量结合‌的方法,例如在真实开发环境中追踪开发者行为(如代码采纳率),同时在标准化基准上进行客观评分(如MMLU、HumanEval)。建议建立‌效能基线‌,在引入AI工具前后进行对比分析,以科学衡量其实际价值。‌评估系统依然会对修复后的代码运行单元测试,而模型写的代码不仅要 通过针对这个 Bug 的新测试,还必须不破坏原有的成百上千个测试(不能修好了一个 Bug,引出了十个新 Bug)。

抽象推理(Abstract reasoning)
以上我们介绍的推理测试,主要还是建立在一类已有的知识学可上的(如数学、物理、生物),要攻克这些题目,模型既要非常博学(掌握大量的学术知识)还得非常聪明(推理能力很强)。
那有没有专注于考模型聪不聪明,而不考模型的知识积累的基准呢?

就像对于一个人的评价,我们看他聪不聪明,可能从小学能看出来了,不一定要等到他上完大学之后再做评价。

对模型的测试也是一样,下面我们讲的对于模型 “抽象推理” 能力的测评,就属于这一类。

严格来说,“抽象推理” 的测评也属于推理能力测评的一种,但这类测评往往不需要模型具备太多专业的学术知识,最典型的就是 ARC-AGI ,我们看到 Gemini 3 和 GPT 5.2 也都出现了这两项测试,并且得分都不是很高。

  • ARC-AGI-1
    在 ARC-AGI 的测试中,模型你拿到的不是文字题干,不和某个领域的知识相关,也不是某个生活常识,而是几张 “前后对照图”(输入网格 → 输出网格)。模型先从要从这些对照图里猜出隐藏规则,再把规则用到一张新图上,画出它的“正确变换结果”。它要考察的也不再是领域知识的深度,而是:能不能用很少的例子快速学会新规则,并正确迁移。你可以把它简单理解成我们小学时代做的那种看图找规律的题,需要从多个角度找到规律
  • ARC-AGI-2
    ARC-AGI-2 是 ARC Prize 团队在 2025 年发布的下一代版本,它的题目形式与 ARC-AGI-1 一致,但是难度更高。

智谱、DeepSeek、Claude 和 Gemini

智谱、DeepSeek、Claude 和 Gemini 是当前全球大模型竞争格局中的代表性力量,分别来自中国和西方技术生态。综合来看,‌智谱GLM-4.7在编程与智能体能力上表现突出,DeepSeek以高性价比和开源优势赢得开发者青睐,Claude在复杂推理与企业级应用中保持领先,而Gemini则依托谷歌生态在多模态和大规模上下文处理上具备优势‌。

  1. ‌智谱(GLM系列)‌
    • 优势领域‌:编程能力、智能体任务执行、长上下文处理。
    • 在2025年发布的GLM-4.6已超越同期DeepSeek-V3.2-Exp,在AIME 25、SWE-Bench Verified等权威编程评测中表现优异,实测性能接近Claude Sonnet 4,但成本仅为七分之一。
    • GLM-4.7进一步提升,与Claude Opus 4.5在智能体能力(Agentic Index)上仅差4分,位列全球前列。
    • 模型支持多语言,尤其在中文语境下理解精准,适合教育、科研和企业开发场景。
    • 已发布完全基于华为芯片训练的GLM-Image模型,体现国产软硬协同突破。
  2. DeepSeek‌
    • 优势领域‌:成本效率、开源开放、中文优化。
    • DeepSeek-R1凭借混合专家架构(MoE),以较低资源消耗实现接近GPT-4o和Claude 3.5 Sonnet的性能。
    • DeepSeek-V3.2在总榜排名第10,编程能力第10,智能体能力第6,整体稳居国产第一梯队。
    • 模型权重公开,支持本地部署与微调,深受中小企业和开发者欢迎。
    • 2025年4月月活达9688万,日活超2200万,用户主要集中在18–24岁群体,市场聚焦中国、印度和东南亚。
  3. Claude(Anthropic)‌‌
    • 优势领域‌:逻辑推理、内容安全、复杂任务编排。
    • Claude Opus 4.5在Agentic Index智能体能力榜单中排名第一(67分),擅长处理多步骤、高复杂度任务。
    • 采用“宪法AI”训练方法,强调安全性与伦理对齐,适合金融、法律、教育等高可信场景。
    • 支持高达20万token上下文,在长文档分析、合同审查等任务中表现稳定。
    • 被广泛用于企业知识管理、内容审核和自动化工作流构建。
  4. Gemini(Google)‌
    • 优势领域‌:多模态融合、搜索集成、大规模推理。
    • Gemini 3 Pro与GPT-5.2并列总榜第一(73分),在编程能力上也并列榜首(62分)。
    • 原生集成Google Search、YouTube、Workspace,适合产品调研、价格比较、内容创作等日常任务。
    • 支持128K以上上下文,谷歌宣称其Gemini Diffusion模型生成速度可达1479 tokens/秒,远超GPT-4o的约150 tokens/秒。
    • 多模态能力突出,可直接生成图文内容,适用于营销、设计辅助等创意场景。

适用场景建议

在这里插入图片描述


参考链接:https://blog.ZEEKLOG.net/m0_63171455/article/details/153182753

Read more

ToClaw:不是更会炫技的 AI,而是更容易用起来

ToClaw:不是更会炫技的 AI,而是更容易用起来

2026 年开年,Agent 类产品明显变得更热了。无论是开源路线,还是云端服务路线,越来越多产品都在强调一件事:AI 不该只是陪你聊天,而应该开始替你做事。 这也是我最近实测 ToClaw 时最直接的感受。它吸引我的地方,不是“参数更猛”或者“概念更新”,而是它明显在往一个更现实的方向走:把原本偏技术流的 Agent 体验,尽量做成普通办公用户也能直接上手的桌面工具。 上面那张图就是我用ToClaw设计出来的: 官方对 ToClaw 的定位也很直接——它是基于 OpenClaw 深度定制、集成远程控制运行时的 AI 助手,强调“手机一句话,你的电脑自动执行”,核心不是陪聊,而是执行任务。与此同时,ToClaw 官方页也强调了它支持远程控制运行时、AI 直接操作电脑、对接飞书/钉钉/企业微信,以及兼容 OpenClaw 生态等能力。 ToClaw

SpringAI 大模型应用开发篇-SpringAI 项目的新手入门知识

SpringAI 大模型应用开发篇-SpringAI 项目的新手入门知识

🔥博客主页: 【小扳_-ZEEKLOG博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录         1.0 SpringAI 概述         1.1 大模型的使用         2.0 SpringAI 新手入门         2.1 配置 pom.xml 文件         2.2 配置 application.yaml 文件         2.3 配置 ChatClient         2.4 同步调用         2.5 流式调用         2.6 System 设定         2.7 日志功能         2.8 会话记忆功能

OpenClaw&Discord 多 Agent 多频道配置实战:从零搭建你的 AI 团队(附踩坑实录)

OpenClaw&Discord 多 Agent 多频道配置实战:从零搭建你的 AI 团队(附踩坑实录)

本文记录了我从零开始配置 OpenClaw 多 Agent 多 Discord 频道的完整过程,基于最新的 OpenClaw 2026.2.22-2 版本,包含实际配置文件和踩坑实录。 一、背景与需求 1.1 为什么要多 Agent? 当 AI Agent 的应用场景越来越丰富时,单一 Agent 很难同时胜任多种专业任务: * 编程任务需要代码能力和技术深度 * 内容创作需要写作技巧和文案感觉 * 健康管理需要健身知识和营养学背景 * 投资分析需要金融市场理解和数据敏感性 让每个 Agent 专注一个领域,比让一个 Agent 什么都懂但什么都不精要好得多。 1.2 为什么要多 Discord 频道? 在 Discord 场景中,不同的频道有不同的氛围和用途: 频道用途对应 Agent#🎯-指挥台主沟通入口,任务分发Cypher

FLUX.1-dev FP8量化模型终极指南:6GB显存轻松玩转AI绘画

FLUX.1-dev FP8量化模型终极指南:6GB显存轻松玩转AI绘画 【免费下载链接】flux1-dev 项目地址: https://ai.gitcode.com/hf_mirrors/Comfy-Org/flux1-dev 还在为高端AI绘画模型的高显存需求而烦恼吗?FLUX.1-dev FP8量化版本彻底改变了游戏规则,将专业级图像生成的硬件门槛从16GB显存大幅降低至仅6GB。这意味着拥有RTX 3060、4060等中端显卡的用户也能流畅运行这款强大的AI创作工具,开启属于自己的数字艺术之旅。 🎯 5分钟快速上手:从零部署完整流程 第一步:获取项目文件 首先需要下载FLUX.1-dev FP8模型和相关代码: git clone https://gitcode.com/hf_mirrors/Comfy-Org/flux1-dev cd flux1-dev 第二步:创建专属虚拟环境 为项目创建独立的Python环境,避免依赖冲突: python -m venv flux_