LLM2D
是用链式思考还是不用?链式思考主要帮助数学和符号推理题目的解答
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning
作者: Zayne Sprague, Fangcong Yin, Juan Diego Rodriguez, Dongwei Jiang, Manya Wadhwa, Prasann Singhal, Xinyu Zhao, Xi Ye, Kyle Mahowald, Greg Durrett
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2409.12183v3

摘要

arXiv:2409.12183v3 声明类型: replace-cross 摘要:通过提示引发的链式思考(Chain-of-thought,CoT)是从大规模语言模型(LLMs)中提取推理能力的默认方法。但这种额外的“思考”对于哪些类型的任务真正有帮助呢?为了分析这个问题,我们进行了涵盖超过100篇使用CoT的研究论文的定量元分析,并对14个模型的20个数据集进行了自己的评估。我们的结果显示,CoT主要在涉及数学或逻辑的任务上提供了强大的性能优势,而在其他类型的任务上几乎没有明显收益。在MMLU上,直接生成答案而不使用CoT,除非问题或模型的回答中包含等号,这表明符号操作和推理,否则几乎与使用CoT的准确度相同。基于这一发现,我们通过分离规划和执行,并与工具增强的LLM进行比较,来分析CoT在这些问题上的行为。CoT的一大优势来自改善了符号执行,但是它相对于使用符号求解器的效果较差。我们的结果表明,CoT可以有针对性地应用,保持性能的同时节省推理成本。此外,它们还表明需要超越基于提示的CoT,转向新的 paradigms,更好地利用整个LLM应用范围中的中间计算。