摘要
arXiv:2503.19602v1 通知类型:新
摘要:大型语言模型(LLMs)的最新进展引入了推理大型语言模型(RLLMs),它们采用了扩展的思考过程,并具备反思和自我纠正的能力,显示出测试时扩展的有效性。RLLMs展现出了从训练中获得的内在逻辑链(CoT)推理能力,这引发了自然的问题:“对于聊天LLMs常用的上下文学习(ICL)方法CoT提示是否必要以增强RLLMs的推理能力?” 在这项工作中,我们首次对零样本CoT和少样本CoT对RLLMs在数学推理任务中影响进行了全面分析。我们考察了从15亿到320亿参数的模型,发现与担忧相反,CoT提示在大多数场景下显著增强了RLLMs的表现。我们的结果显示了不同的模式:大容量模型在简单任务上几乎没有改进,但在复杂问题上表现出显著提升,而小模型则表现出相反的行为。进一步的分析表明,CoT提示有效地控制了思考令牌和推理步骤的数量分布,在某些情况下减少了约90%的过度反思。此外,注意力分数分析揭示了RLLMs对与反思相关的词汇的过度拟合,这种过度拟合可以通过外部CoT指导来缓解。值得注意的是,我们的实验表明,对于RLLMs,单次样本CoT始终在表现上优于少样本CoT方法。我们的发现为通过合适的提示策略优化RLLMs的性能提供了重要的见解。