LLM2D

摘要

arXiv:2409.12183v3 声明类型: replace-cross 摘要：通过提示引发的链式思考（Chain-of-thought，CoT）是从大规模语言模型（LLMs）中提取推理能力的默认方法。但这种额外的“思考”对于哪些类型的任务真正有帮助呢？为了分析这个问题，我们进行了涵盖超过100篇使用CoT的研究论文的定量元分析，并对14个模型的20个数据集进行了自己的评估。我们的结果显示，CoT主要在涉及数学或逻辑的任务上提供了强大的性能优势，而在其他类型的任务上几乎没有明显收益。在MMLU上，直接生成答案而不使用CoT，除非问题或模型的回答中包含等号，这表明符号操作和推理，否则几乎与使用CoT的准确度相同。基于这一发现，我们通过分离规划和执行，并与工具增强的LLM进行比较，来分析CoT在这些问题上的行为。CoT的一大优势来自改善了符号执行，但是它相对于使用符号求解器的效果较差。我们的结果表明，CoT可以有针对性地应用，保持性能的同时节省推理成本。此外，它们还表明需要超越基于提示的CoT，转向新的 paradigms，更好地利用整个LLM应用范围中的中间计算。