LLM2D
从欠思考到过思考:关于LLM推理长度与正确性的一项 empirical 研究
Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs
作者: Jinyan Su, Jennifer Healey, Preslav Nakov, Claire Cardie
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2505.00127v1

摘要

arXiv:2505.00127v1 类型: cross 摘要:大语言模型(LLMs)越来越多地被优化以进行长推理,假设更多的推理会导致更好的性能。然而,新兴的证据表明,较长的回应有时会降低准确性,而不是提高准确性。在本文中,我们系统地研究了推理长度和答案正确性之间的关系。我们发现,LLMs往往会过度思考简单的问题,生成不必要的长输出,并且在难以应对的问题上思考不足,无法在最需要扩展推理时进行扩展。这表明模型可能错误地判断问题难度,并未能适当地校准其响应长度。此外,我们研究了偏好优化算法在简单地偏好较短的回应而不考虑答案正确性时的影响。实验结果显示,生成长度可以显著减少,同时保持可接受的准确性。我们的研究结果强调了生成长度作为推理行为有意义的信号,并促使进一步探索LLMs在其推理长度适应方面的自我意识。