摘要
arXiv:2502.12067v1 交叉类型: cross
摘要: 链式思维(CoT)已被证明可以增强大型语言模型(LLMs)的推理能力。最近的进展,如OpenAI的o1和DeepSeek-R1表明,在推理过程中扩大CoT序列的长度可以进一步提高LLM的推理性能。然而,由于LLM解码的自回归性质,较长的CoT输出会导致推理延迟线性增加,从而影响用户体验,尤其是在CoT超过10,000个标记时。为了解决这一限制,我们分析了CoT输出中标记的语义重要性,并揭示了它们对推理的贡献各不相同。基于这一洞见,我们提出了TokenSkip,这是一种简单而有效的方法,使LLMs能够选择性地跳过不重要的标记,从而实现可控的CoT压缩。广泛的任务和模型实验表明,TokenSkip在减少CoT标记使用量的同时,能保持强大的推理性能。值得注意的是,当应用于Qwen2.5-14B-Instruct时,在GSM8K上,TokenSkip将推理标记减少了40%(从313减少到181),性能下降不到0.4%。