LLM2D

摘要

arXiv:2502.08235v1 Announce Type: 新摘要：大规模推理模型（LRMs）在人工智能问题解决能力上取得了突破，但在交互环境中却可能效果有限。本文介绍了并在实验中分析了LRMs中的过度推理现象，这是一种模型倾向于延长内部推理链而不是与环境互动的现象。通过使用SWE BenchVerified进行软件工程任务的实验，我们观察到三个反复出现的模式：分析瘫痪、 rogue 行动和过早脱钩。我们提出了一种框架来研究这些行为，并与人类专家评估相关联，分析了4018条轨迹。我们观察到，更高的过度推理得分与性能下降相关联，推理模型表现出比非推理模型更为强烈的过度推理倾向。我们的分析表明，通过选择较低的过度推理分数的解决方案，可以在提高模型性能的同时将计算成本降低43%，这几乎提高了30%。这些结果表明，减轻过度推理具有很强的实际意义。我们建议通过利用内置的函数调用能力和选择性增强学习，可以减轻过度推理倾向。我们还开源了我们的评估框架和数据集，以促进在这方面进行的研究，可以在https://github.com/AlexCuadron/Overthinking获取。