LLM2D

摘要

arXiv:2502.07266v1 通告类型: 新摘要: 链式思考（CoT）推理通过将复杂任务分解为更小、更易于管理的子任务，增强了大型语言模型（LLMs）的多步推理能力。研究人员一直在探索引导模型生成更复杂CoT过程的方法，以提高LLMs的推理能力，例如长CoT和测试时的缩放定律。然而，对于大多数模型和任务而言，CoT长度的增加是否始终会导致推理准确性提升？在本文中，我们观察到一种复杂的关系：随着推理步骤数量的增加，性能最初会提高，但最终会下降。为了理解这一现象，我们提供了一项证据，表明较长的推理过程越来越容易受到噪声的影响。我们理论证明了存在一个最优的CoT长度，并基于模型能力和任务难度推导出了这一最优长度的缩放定律。受到我们理论的启发，我们在合成和真实世界数据集上进行了实验，并提出了长过滤投票（Length-filtered Vote）以缓解过长或过短CoT的影响。我们的发现强调了校准CoT长度以与模型能力和任务需求相一致的至关重要性，为优化LLMs中的多步推理提供了一个有原则的框架。