摘要
arXiv:2504.06514v2 宣告类型: 修改
摘要: 我们发现,无论是通过强化学习还是监督学习训练的推理大语言模型(LLM)对缺少前提条件的不恰当问题(MiP)的回应长度急剧增加,最终导致冗余且无效的思考。这种新引入的情景在很大程度上加剧了一般过度思考问题,我们将这种现象称为MiP-过度思考。这种失败违背了“测试时缩放法则”,但我们在多个我们自建的含有MiP的 数据集上广泛观察到这种现象,这表明了廉价的过度思考和缺乏批判思维的危害。令人惊讶的是,那些未专门针对推理进行训练的LLM在MiP情景中的表现要好得多,能够产生更短的回应并迅速识别不恰当的问题。这暗示了当前推理LLM的训练方法存在重大缺陷,未能充分鼓励有效的思考,导致思考模式的滥用。为了进一步探究这种失败的原因,我们对不同类型的LLM进行了细粒度的分析,研究了推理长度、过度思考模式以及关键思考的位置。此外,我们的扩展消融研究还揭示了过度思考可以通过推理模型响应的蒸馏传播。这些结果增强了我们对过度思考的理解,并为解决这一问题提供了新的见解。