摘要
arXiv:2502.07266v1 通告类型: 新
摘要: 链式思考(CoT)推理通过将复杂任务分解为更小、更易于管理的子任务,增强了大型语言模型(LLMs)的多步推理能力。研究人员一直在探索引导模型生成更复杂CoT过程的方法,以提高LLMs的推理能力,例如长CoT和测试时的缩放定律。然而,对于大多数模型和任务而言,CoT长度的增加是否始终会导致推理准确性提升?在本文中,我们观察到一种复杂的关系:随着推理步骤数量的增加,性能最初会提高,但最终会下降。为了理解这一现象,我们提供了一项证据,表明较长的推理过程越来越容易受到噪声的影响。我们理论证明了存在一个最优的CoT长度,并基于模型能力和任务难度推导出了这一最优长度的缩放定律。受到我们理论的启发,我们在合成和真实世界数据集上进行了实验,并提出了长过滤投票(Length-filtered Vote)以缓解过长或过短CoT的影响。我们的发现强调了校准CoT长度以与模型能力和任务需求相一致的至关重要性,为优化LLMs中的多步推理提供了一个有原则的框架。