摘要
arXiv:2504.21370v1 宣传类型: 新
摘要:生成式推理模型如OpenAI o3和DeepSeek-R1已通过扩展的链式思考(CoT)提示展示了在推理密集型任务上的强大性能。虽然较长的推理痕迹可以促进对复杂问题解决方案路径的更全面探索,但研究人员观察到这些模型往往“过度思考”,导致推理效率低下。在本文中,我们引入了ShorterBetter,这是一种简单而有效的强化学习方法,使推理语言模型能够在无需人工干预的情况下发现最优的CoT长度。通过每问题采样多个输出,并定义样本最优长度(SOL)为所有输出中的最短正确响应,我们的方法动态地引导模型朝着最优推理长度方向发展。ShorterBetter方法应用于DeepSeek-Distill-Qwen-1.5B模型时,在领域内和领域外的推理任务中,将输出长度最多减少了80%,同时保持了准确性。我们的分析表明,过长的推理痕迹往往反映了推理方向的丧失,因此表明推理模型生成的扩展CoT高度可压缩。