LLM2D
先天推理不足以解决问题:上下文学习能够使大型语言模型在较少过度思考的情况下提升推理能力
Innate Reasoning is Not Enough: In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking
作者: Yuyao Ge, Shenghua Liu, Yiwei Wang, Lingrui Mei, Lizhe Chen, Baolong Bi, Xueqi Cheng
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19602v1

摘要

arXiv:2503.19602v1 通知类型:新 摘要:大型语言模型(LLMs)的最新进展引入了推理大型语言模型(RLLMs),它们采用了扩展的思考过程,并具备反思和自我纠正的能力,显示出测试时扩展的有效性。RLLMs展现出了从训练中获得的内在逻辑链(CoT)推理能力,这引发了自然的问题:“对于聊天LLMs常用的上下文学习(ICL)方法CoT提示是否必要以增强RLLMs的推理能力?” 在这项工作中,我们首次对零样本CoT和少样本CoT对RLLMs在数学推理任务中影响进行了全面分析。我们考察了从15亿到320亿参数的模型,发现与担忧相反,CoT提示在大多数场景下显著增强了RLLMs的表现。我们的结果显示了不同的模式:大容量模型在简单任务上几乎没有改进,但在复杂问题上表现出显著提升,而小模型则表现出相反的行为。进一步的分析表明,CoT提示有效地控制了思考令牌和推理步骤的数量分布,在某些情况下减少了约90%的过度反思。此外,注意力分数分析揭示了RLLMs对与反思相关的词汇的过度拟合,这种过度拟合可以通过外部CoT指导来缓解。值得注意的是,我们的实验表明,对于RLLMs,单次样本CoT始终在表现上优于少样本CoT方法。我们的发现为通过合适的提示策略优化RLLMs的性能提供了重要的见解。