LLM2D

摘要

arXiv:2504.15895v1 类型: cross 摘要: 近期大规模推理语言模型(LRLMs)的进步依赖于测试时扩展,将长链式思考(长CoT)生成扩展到解决复杂任务。然而,在长CoT中过度思考不仅会降低问题解决的效率,还因极其详细或冗余的推理步骤而存在准确性损失的风险。我们提出了一种简单而有效的方法,允许LLM在生成过程中通过早期退出来自我截断CoT序列。与依赖固定启发式方法不同,所提出的方法在潜在的推理转换点(例如,"等待"标记)处监控模型行为,并在模型对试验答案表现出高信心时动态终止后续推理链的生成。该方法不需要额外的训练,并且可以无缝集成到现有的类似o1的推理LLM中。在MATH-500、AMC 2023、GPQA Diamond和AIME 2024等多个推理基准测试中进行的实验表明,所提出的方法在深seek系列推理LLM中表现一致有效,将CoT序列的长度平均减少了31%到43%,同时提高了1.7%到5.7%的准确性。