9.11 和 9.9 哪个大?
这一连人类幼儿园儿童都能回答的问题,曾经(至今)难倒了众多大语言模型(LLM)。

然而,要想达到通用人工智能(AGI)的水平,LLM 不仅要完成'比大小'这种简单的逻辑推理,还需要完成难度更高的推理,比如'对复杂规则的理解与执行以及多步骤规划',这是 LLM 智能体(agent)和决策系统的核心能力。
因此,如何有效评估 LLM 作为基于规则的执行者和规划者角色,至关重要。但是,目前学界和业界少有这方面的研究。
来自清华大学和智谱的研究团队推出了一项新的基准测试——LogicGame,旨在全面评估 LLM 在规则理解、执行和规划方面的能力。先看评测结果:

除了看到 o1-preview、o-mini 的遥遥领先,我们也看到超过一半的模型得分不到 10%,如上图红色区域所示。
这一评测结果揭示了一个不容忽视的事实:大多数 LLM 在基于规则的逻辑推理上都存在着明显的缺陷。
相关研究论文以'LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models'为题,已发表在预印本网站 arXiv 上。

论文链接:
https://arxiv.org/abs/2408.15778
与传统基准测试不同,LogicGame 包含一系列多样化的游戏,每个游戏都有一套初始状态规则,这要求模型不仅能够理解这些预定义的规则,还可以应用它们来解决问题。而且,LogicGame 还同时考虑了最终结果和中间步骤,从而对模型性能进行全面的评估。
研究结果显示,通过设定不同难度的游戏场景,LogicGame 能够精确地衡量模型在规则理解和多步骤执行及规划任务上的表现。
LogicGame:'四级'难度游戏场景
遵循规则与推理的结合是完成许多现实世界任务的关键。然而,现有基准测试常常无法充分捕捉这一点。
为了填补这一空白,研究团队通过广泛的研究和众包开发了一套新颖的问题集。他们发现这些任务与某些游戏机制相似,因为现实世界的任务通常与游戏有着共同特征,比如需要遵循特定的规则,进而进行决策。因此,他们采用了游戏化的方法,从而能够对模型遵循规则的推理能力进行细致的评估。
其中,LogicGame 的数据构建,包含以下四个部分:
- 设计规则推理问题,灵感来自现实世界场景。由于现实世界任务往往具有游戏特征,例如需要遵循特定规则和做出决策,因此 LogicGame 采用了游戏化方法来评估模型的规则遵循和推理能力。
- 开发输出约束,确保模型输出符合标准格式。为了方便精确评估和简化匹配步骤,模型响应被要求遵循结构化的 JSON 输出格式。对于单步问题(Level 0),模型只需要输出最终答案,评估仅基于答案的正确性。对于涉及多步骤或更复杂推理的问题(Level 1、2、3 和某些 Level 0 问题),既要评估答案,也要评估步骤。
- 实现不同难度级别,并包含示例问题。有四个难度级别,评估模型推理能力的范围,从简单的规则应用到复杂的推理链。难度梯度由相关规则的复杂程度和得出解决方案所需的推理步骤数量决定。
为了确保公平性和更广泛的适用性,LogicGame 包含了中文和英文版本基准。






