LLM2D
你需要思考何时思考:自适应链式思维学习
Think When You Need: Self-Adaptive Chain-of-Thought Learning
作者: Junjie Yang, Ke Lin, Xing Yu
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2504.03234v1

摘要

arXiv:2504.03234v1 宣告类型: cross 摘要: 链式思考(Chain of Thought, CoT)推理能够提升语言模型的性能,但常常在解决简单问题时导致不必要的“过度思考”。我们发现,现有直接惩罚推理长度的方法未能考虑到问题复杂度的差异。我们的方法通过长度和质量的比较构建奖励,并在理论上假设同时提高解决方案的正确性和简洁性。此外,我们还进一步展示了该方法在缺乏地面真实值的模糊任务中的应用。跨多个推理基准的实验表明,我们的方法能够在保持准确性的前提下生成显著更加简洁的解释,有效地教导模型在需要时进行思考。