Anthropic 提出大模型科学评测的五项建议

人工智能（AI）大模型的客观评测，有助于推动大模型行业的健康发展。然而，当前业内的基准测试（benchmark）层出不穷，充斥着各种评测乱象。

更值得深思的是，当一个模型在某个基准测试上的表现优于另一个模型时，这究竟是反映了模型间的真实差异，还是仅仅因为选择了特定的问题而'运气好'？

从根本上说，评测就是实验，但有关评测的研究在很大程度上忽视了其他科学中有关实验分析和规划的研究，业内缺乏对这一问题的深入研究。

知名大模型初创公司 Anthropic 在其最新博客中试图回答这一问题。他们通过借鉴统计理论和其他科学中实验分析和规划的研究，向人工智能行业提出了一些建议，以便以科学的方式报告语言模型评测结果，最大限度地减少统计噪声，增加真实信息量。

相关研究论文已发表于预印本网站 arXiv：https://arxiv.org/abs/2411.00640

建议 1：使用中心极限定理

评测通常由数百或数千个不相关的问题组成。例如，MMLU（测量大规模多任务语言理解能力）会包含各种各样的问题。

要计算总体评测分数，需要对每个问题单独评分，然后总体分数通常是这些问题分数的简单平均值。

通常，研究人员将注意力集中在这个观察到的平均值上。但 Anthropic 认为，真正感兴趣的对象不应该是'观察到'的平均值，而是所有可能问题的'理论'平均值。

因此，如果将评测问题想象成是从一个看不见的'问题世界'中抽取的，那么就可以了解该世界的平均分数——也就是说，可以使用统计理论来衡量潜在的'技能'，而不受'全凭运气'的影响。

这意味着，若将评测问题视为从'问题世界'抽取的样本，评估分数将趋向于遵循正态分布，以所有可能问题的平均分数为中心。

这种公式带来了分析鲁棒性：如果要创建一个新的评测，其问题具有与原始评测相同的难度分布，那么通常应该期望原来的结论能够成立。

用技术术语来说：在中心极限定理的相对温和条件下，从同一基础分布中抽取的几个随机样本的平均值将趋向于遵循正态分布。该正态分布的标准差（或宽度）通常称为平均值的标准误差，或 SEM。

在论文中，他们鼓励研究人员报告从中心极限定理得出的 SEM，以及每个计算出的评估分数。通过在平均分数上加减 1.96 × SEM，可以从 SEM 计算出 95% 的置信区间。

建议 2：聚类标准误差

许多评测违反了上述独立选择问题的假设，而是由一组密切相关的问题组成。例如，阅读理解评测中的几个问题可能会询问同一段文字。遵循这种模式的主流评测包括 DROP、QuAC、RACE 和 SQuAD。

对于这些评测，每个问题从'问题范围'中选择的内容不再是独立的。因为包含关于同一段文本的几个问题所产生的信息量要比选择相同数量关于不同段落文本的问题所产生的信息量少，所以将中心极限定理简单应用于非独立问题的情况会导致低估标准误差，并可能误导分析师从数据中得出错误的结论。

幸运的是，聚类标准误差问题在社会科学中得到了广泛的研究。当问题的纳入不独立时，研究建议以随机化单位（例如，文本段落）对标准误差进行聚类，并在论文中提供了适用的公式。

如果问题出现在相关的集群中（阅读理解评测中的常见模式），那么与非集群情况相比，评估分数将更加分散。

研究发现，在实践中流行评测的聚类标准误差可能是简单标准误差的三倍以上。忽略问题聚类可能会导致研究人员无意中发现模型能力的差异，而实际上并不存在差异。

建议 3：减少问题内的差异

方差是衡量随机变量分散程度的指标。评测分数的方差是上文讨论的平均值标准误差的平方；该量取决于每个评测问题的分数方差量。

研究中一个关键见解是将模型在特定问题上的得分分解为两个相加的项：

平均分数（如果无数次询问相同的问题，模型将获得的平均分数 - 即使模型每次可能会给出不同的答案）；
随机成分（实际问题分数与该问题的平均分数之间的差异）。

根据总方差定律，减少随机分量的方差会直接导致整体平均值的标准误差更小，从而提高统计精度。研究重点介绍了两种减少随机分量方差的策略，具体取决于是否要求模型在回答之前逐步思考（即 CoT 或思维链推理的提示技术）。

如果评测使用思维链推理，他们建议多次从同一模型中重新采样答案，并使用问题级平均值作为输入到中心极限定理的问题分数。他们注意到，Inspect 框架通过其 epochs 参数以这种方式正确计算标准误差。

如果模型产生的答案具有不确定性，那么每个问题生成（和评分）多个答案将导致评测分数分散。

如果评测不使用思维链推理（即其答案不是'路径依赖'），那么分数中的随机成分通常可以使用语言模型中的 next-token 概率完全消除。例如，如果多项选择题的正确答案是'B'，那么只需使用模型生成 token'B'的概率作为问题分数。研究团队表示不知道目前有哪个开源评测框架实现了这种技术。

建议 4：分析配对差异

评测分数本身没有任何意义；它们只有在相互关联时才有意义（一个模型优于另一个模型，或与另一个模型能力相当，或超过某一个人）。

Anthropic 提出大模型科学评测的五项建议