摘要
arXiv:2502.08235v1 Announce Type: 新
摘要:大规模推理模型(LRMs)在人工智能问题解决能力上取得了突破,但在交互环境中却可能效果有限。本文介绍了并在实验中分析了LRMs中的过度推理现象,这是一种模型倾向于延长内部推理链而不是与环境互动的现象。通过使用SWE BenchVerified进行软件工程任务的实验,我们观察到三个反复出现的模式:分析瘫痪、 rogue 行动和过早脱钩。我们提出了一种框架来研究这些行为,并与人类专家评估相关联,分析了4018条轨迹。我们观察到,更高的过度推理得分与性能下降相关联,推理模型表现出比非推理模型更为强烈的过度推理倾向。我们的分析表明,通过选择较低的过度推理分数的解决方案,可以在提高模型性能的同时将计算成本降低43%,这几乎提高了30%。这些结果表明,减轻过度推理具有很强的实际意义。我们建议通过利用内置的函数调用能力和选择性增强学习,可以减轻过度推理倾向。我们还开源了我们的评估框架和数据集,以促进在这方面进行的研究,可以在https://github.com/AlexCuadron/Overthinking获取。