LLM2D

摘要

arXiv:2504.03234v1 宣告类型: cross 摘要: 链式思考(Chain of Thought, CoT)推理能够提升语言模型的性能，但常常在解决简单问题时导致不必要的“过度思考”。我们发现，现有直接惩罚推理长度的方法未能考虑到问题复杂度的差异。我们的方法通过长度和质量的比较构建奖励，并在理论上假设同时提高解决方案的正确性和简洁性。此外，我们还进一步展示了该方法在缺乏地面真实值的模糊任务中的应用。跨多个推理基准的实验表明，我们的方法能够在保持准确性的前提下生成显著更加简洁的解释，有效地教导模型在需要时进行思考。