LLM2D

摘要

arXiv:2504.06514v1 Announce Type: 新增摘要：我们发现，无论是通过强化学习还是监督学习训练的推理大语言模型，在缺乏前提条件（MiP）的不完整问题上的响应长度急剧增加，最终导致冗余且无效的思考。这一新引入的场景极大地加剧了普遍存在的过度思考问题，我们将其命名为MiP-过度思考。这种失败与“测试时扩展法则”相悖，但在我们收集的多个包含MiP的数据集上广泛观察到，这表明廉价的过度思考和缺乏批判性思维的危害。令人惊讶的是，那些未特别为推理训练的模型在MiP场景中表现得更好，产生更短的响应，能迅速识别出不完整的查询。这暗示了当前推理大语言模型的训练食谱存在严重缺陷，未能充分鼓励有效的思考，导致思考模式的滥用。为了进一步研究这些失败的原因，我们对不同类型的LLM进行了精细分析，研究推理长度、过度思考模式和关键思考的位置。此外，我们扩展的消融研究揭示了推理模型响应间的过度思考具有传染性。这些结果加深了对过度思考的理解，并提供了缓解这一问题的新见解。