
思维链(CoT)已被证明可以在许多任务(如多步骤推理)上显著提升大模型的性能。然而,在哪些情况下,CoT 会系统性地降低大模型的性能,这仍然是一个有待进一步讨论的问题。
如今,来自普林斯顿大学和纽约大学的研究团队,参照思考对'人类性能'的影响,提出了新的见解。
他们认为,虽然模型的认知过程与人类的认知过程并不完全相同,但可以参照思考对人类'性能'产生负面影响的情况,假定思考会对模型产生负面影响的环境。
他们从心理学中选择了 6 项已被充分研究的任务类型来探讨 CoT 对 LLM 性能的影响,并验证了 CoT 在一些任务中甚至可能导致模型准确率下降。
这一发现不仅为未来优化 LLM 的提示策略提供了新思路,还为理解人类与模型在推理过程中的相似性与差异性带来了新见解。

论文链接:
https://arxiv.org/abs/2410.21333
研究表明,CoT 并非在所有任务中都能提高模型性能,在隐性统计学习、面部识别、含例外模式的数据分类三种情况下,各种 SOTA 模型的性能都会明显下降。此外,研究本身进一步揭示了通过人类心理学研究大模型的可行性。
研究方法
为分析 CoT 对大语言模型(LLM)与多模态大模型(LMM)性能的影响,该研究的方法框架基于以下两个关键条件:
(1)言语思考或深思熟虑会损害人类'表现'的情况。
(2)将制约人类'表现'的因素推广到语言模型的情况。
之后,为验证'CoT 在一些任务中会导致模型表现下降'的假设,研究团队在上述两个条件的指导下基于人类心理学设计了以下 6 种任务场景:
隐性统计学习(Implicit Statistical Learning):考察模型在隐含语法结构的分类任务中使用 CoT 是否会降低表现。基于心理学中的实验结果,该研究假设人类在进行语言推理时往往表现较差,因此 CoT 在该场景下应有类似的效果。
面部识别(Facial Recognition):在该任务中,模型需要识别图像中的人脸。基于人类在口头描述面部特征后识别率下降的现象,研究假设 CoT 会影响模型的面部识别准确性。
含例外模式的数据分类(Classifying Data with Patterns that Contain Exceptions):该任务模拟模型在含有异常标签的数据中学习的表现。研究假设 CoT 会导致模型在遇到例外情况时增加学习轮次,因为人类通常会倾向于建立简单规则,从而忽视个别特例。
解释逻辑不一致(Explaining a logical inconsistency):在逻辑一致性判断任务中,模型需要识别出两句话之间的逻辑冲突,该任务通常会引发人类的语言推理困难。
空间直觉(Spatial Intuitions):模型需要推断液体在倾斜容器中的位置。该任务依赖空间和运动直觉,心理学研究表明人类在使用语言推理时效果不佳,该研究假设模型也会遇到类似问题。
特征聚合决策(Aggregating Features for a Decision):模型在多维度决策情境中聚合信息并做出决策。由于信息过载通常会导致人类在 CoT 模式下表现不佳,因此研究假设在该任务中,CoT 将不会提高模型性能。

图|对 6 项任务进行评估,以确定 CoT 提示是否会降低任务的绩效。(来源:该论文)
针对每个任务场景,研究团队分别构建了零样本(zero-shot)和 CoT 提示条件,并在多个主流 LLM 和 LMM 上进行测试,包括 GPT-4o、Claude 3.5、Llama 等,通过对比不同条件下模型的准确率,量化 CoT 提示的效果,从而验证他们的假设。







