摘要
arXiv:2505.04881v1 宣告类型: cross
摘要: 大型推理模型(LRMs)通过链式思考(CoT)提示在复杂推理任务中表现出色,但往往会因冗余内容导致输出冗长,增加了计算负担,并损害了用户体验。现有的压缩方法要么在事后进行剪枝操作,这会破坏推理的一致性,要么依赖于基于采样的选择,这在生成过程中无法有效干预。在本文中,我们引入了一种信心导向的视角来解释LRMs中冗余反思的产生,识别出两个关键模式:信心赤字,模型由于内部信心较低而重新考虑正确的步骤;以及终止延迟,即使在获得信心十足的答案后仍继续推理。基于这一分析,我们提出了ConCISE(信心导向的逐步高效推理中的压缩),这是一个通过在推理过程中强化模型的信心来简化推理链的框架,从而避免生成冗余的反思步骤。它集成了信心注入以稳定中间步骤,并在信心足够时提前终止推理。广泛的实验表明,在ConCISE生成的数据上微调LRMs可以显著减少输出长度,根据SimPO下的长度减少最多可达约50%的同时,保持高任务准确性。ConCISE在多个推理基准测试中始终优于现有基准。