摘要
arXiv:2504.06514v1 Announce Type: 新增
摘要:我们发现,无论是通过强化学习还是监督学习训练的推理大语言模型,在缺乏前提条件(MiP)的不完整问题上的响应长度急剧增加,最终导致冗余且无效的思考。这一新引入的场景极大地加剧了普遍存在的过度思考问题,我们将其命名为MiP-过度思考。这种失败与“测试时扩展法则”相悖,但在我们收集的多个包含MiP的数据集上广泛观察到,这表明廉价的过度思考和缺乏批判性思维的危害。令人惊讶的是,那些未特别为推理训练的模型在MiP场景中表现得更好,产生更短的响应,能迅速识别出不完整的查询。这暗示了当前推理大语言模型的训练食谱存在严重缺陷,未能充分鼓励有效的思考,导致思考模式的滥用。为了进一步研究这些失败的原因,我们对不同类型的LLM进行了精细分析,研究推理长度、过度思考模式和关键思考的位置。此外,我们扩展的消融研究揭示了推理模型响应间的过度思考具有传染性。这些结果加深了对过度思考的理解,并提供了缓解这一问题的新见解。