LLM2D
过度思考的危险:在代理任务中探究推理-行动困境
The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks
作者: Alejandro Cuadron, Dacheng Li, Wenjie Ma, Xingyao Wang, Yichuan Wang, Siyuan Zhuang, Shu Liu, Luis Gaspar Schroeder, Tian Xia, Huanzhi Mao, Nicholas Thumiger, Aditya Desai, Ion Stoica, Ana Klimovic, Graham Neubig, Joseph E. Gonzalez
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.08235v1

摘要

arXiv:2502.08235v1 Announce Type: 新 摘要:大规模推理模型(LRMs)在人工智能问题解决能力上取得了突破,但在交互环境中却可能效果有限。本文介绍了并在实验中分析了LRMs中的过度推理现象,这是一种模型倾向于延长内部推理链而不是与环境互动的现象。通过使用SWE BenchVerified进行软件工程任务的实验,我们观察到三个反复出现的模式:分析瘫痪、 rogue 行动和过早脱钩。我们提出了一种框架来研究这些行为,并与人类专家评估相关联,分析了4018条轨迹。我们观察到,更高的过度推理得分与性能下降相关联,推理模型表现出比非推理模型更为强烈的过度推理倾向。我们的分析表明,通过选择较低的过度推理分数的解决方案,可以在提高模型性能的同时将计算成本降低43%,这几乎提高了30%。这些结果表明,减轻过度推理具有很强的实际意义。我们建议通过利用内置的函数调用能力和选择性增强学习,可以减轻过度推理倾向。我们还开源了我们的评估框架和数据集,以促进在这方面进行的研究,可以在https://github.com/AlexCuadron/Overthinking获取。