研究发现思维链（CoT）在某些任务中会降低大模型准确率

思维链（CoT）通常被认为能提升大模型性能，但普林斯顿大学和纽约大学的新研究表明，在隐性统计学习、面部识别及含例外模式的数据分类等特定任务中，CoT 反而会导致模型准确率显著下降。研究基于人类心理学设计了六项任务场景，测试了 GPT-4o、Claude 3.5 及 Llama 等主流模型。结果显示，OpenAI o1-preview 在隐性统计学习任务中准确率下降了 36.3%，且 CoT 会增加模型学习轮次。此外，在逻辑不一致判断和空间直觉任务中效果不一，而在特征聚合决策任务中 CoT 则提升了表现。该研究揭示了利用人类心理学评估和改进 AI 模型的可行性，并指出未来需更多跨学科合作以完善 AI 评估策略。

随缘发布于 2025/2/7更新于 2026/4/180 浏览

实验结果对比图

思维链（CoT）已被证明可以在许多任务（如多步骤推理）上显著提升大模型的性能。然而，在哪些情况下，CoT 会系统性地降低大模型的性能，这仍然是一个有待进一步讨论的问题。

如今，来自普林斯顿大学和纽约大学的研究团队，参照思考对'人类性能'的影响，提出了新的见解。

他们认为，虽然模型的认知过程与人类的认知过程并不完全相同，但可以参照思考对人类'性能'产生负面影响的情况，假定思考会对模型产生负面影响的环境。

他们从心理学中选择了 6 项已被充分研究的任务类型来探讨 CoT 对 LLM 性能的影响，并验证了 CoT 在一些任务中甚至可能导致模型准确率下降。

这一发现不仅为未来优化 LLM 的提示策略提供了新思路，还为理解人类与模型在推理过程中的相似性与差异性带来了新见解。

实验结果对比图

论文链接：

https://arxiv.org/abs/2410.21333

研究表明，CoT 并非在所有任务中都能提高模型性能，在隐性统计学习、面部识别、含例外模式的数据分类三种情况下，各种 SOTA 模型的性能都会明显下降。此外，研究本身进一步揭示了通过人类心理学研究大模型的可行性。

研究方法

为分析 CoT 对大语言模型（LLM）与多模态大模型（LMM）性能的影响，该研究的方法框架基于以下两个关键条件：

（1）言语思考或深思熟虑会损害人类'表现'的情况。

（2）将制约人类'表现'的因素推广到语言模型的情况。

之后，为验证'CoT 在一些任务中会导致模型表现下降'的假设，研究团队在上述两个条件的指导下基于人类心理学设计了以下 6 种任务场景：

隐性统计学习（Implicit Statistical Learning）：考察模型在隐含语法结构的分类任务中使用 CoT 是否会降低表现。基于心理学中的实验结果，该研究假设人类在进行语言推理时往往表现较差，因此 CoT 在该场景下应有类似的效果。

面部识别（Facial Recognition）：在该任务中，模型需要识别图像中的人脸。基于人类在口头描述面部特征后识别率下降的现象，研究假设 CoT 会影响模型的面部识别准确性。

含例外模式的数据分类（Classifying Data with Patterns that Contain Exceptions）：该任务模拟模型在含有异常标签的数据中学习的表现。研究假设 CoT 会导致模型在遇到例外情况时增加学习轮次，因为人类通常会倾向于建立简单规则，从而忽视个别特例。

解释逻辑不一致（Explaining a logical inconsistency）：在逻辑一致性判断任务中，模型需要识别出两句话之间的逻辑冲突，该任务通常会引发人类的语言推理困难。

空间直觉（Spatial Intuitions）：模型需要推断液体在倾斜容器中的位置。该任务依赖空间和运动直觉，心理学研究表明人类在使用语言推理时效果不佳，该研究假设模型也会遇到类似问题。

特征聚合决策（Aggregating Features for a Decision）：模型在多维度决策情境中聚合信息并做出决策。由于信息过载通常会导致人类在 CoT 模式下表现不佳，因此研究假设在该任务中，CoT 将不会提高模型性能。

实验结果对比图

图｜对 6 项任务进行评估，以确定 CoT 提示是否会降低任务的绩效。（来源：该论文）

针对每个任务场景，研究团队分别构建了零样本（zero-shot）和 CoT 提示条件，并在多个主流 LLM 和 LMM 上进行测试，包括 GPT-4o、Claude 3.5、Llama 等，通过对比不同条件下模型的准确率，量化 CoT 提示的效果，从而验证他们的假设。

研究发现思维链（CoT）在某些任务中会降低大模型准确率

研究方法

更多推荐文章

相关免费在线工具

实验结果

不足与展望

研究发现思维链（CoT）在某些任务中会降低大模型准确率

研究方法

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

实验结果

不足与展望