LLM2D

摘要

arXiv:2505.04881v1 宣告类型: cross 摘要: 大型推理模型（LRMs）通过链式思考（CoT）提示在复杂推理任务中表现出色，但往往会因冗余内容导致输出冗长，增加了计算负担，并损害了用户体验。现有的压缩方法要么在事后进行剪枝操作，这会破坏推理的一致性，要么依赖于基于采样的选择，这在生成过程中无法有效干预。在本文中，我们引入了一种信心导向的视角来解释LRMs中冗余反思的产生，识别出两个关键模式：信心赤字，模型由于内部信心较低而重新考虑正确的步骤；以及终止延迟，即使在获得信心十足的答案后仍继续推理。基于这一分析，我们提出了ConCISE（信心导向的逐步高效推理中的压缩），这是一个通过在推理过程中强化模型的信心来简化推理链的框架，从而避免生成冗余的反思步骤。它集成了信心注入以稳定中间步骤，并在信心足够时提前终止推理。广泛的实验表明，在ConCISE生成的数据上微调LRMs可以显著减少输出长度，根据SimPO下的长度减少最多可达约50%的同时，保持高任务准确性。ConCISE在多个推理基准测试中始终优于现有基准。