LLM2D

可控的链式思考压缩在大语言模型中

TokenSkip: Controllable Chain-of-Thought Compression in LLMs

作者: Heming Xia, Yongqi Li, Chak Tou Leong, Wenjie Wang, Wenjie Li

发布日期: 2/18/2025

arXiv ID: oai:arXiv.org:2502.12067v1

摘要

arXiv:2502.12067v1 交叉类型: cross 摘要: 链式思维（CoT）已被证明可以增强大型语言模型（LLMs）的推理能力。最近的进展，如OpenAI的o1和DeepSeek-R1表明，在推理过程中扩大CoT序列的长度可以进一步提高LLM的推理性能。然而，由于LLM解码的自回归性质，较长的CoT输出会导致推理延迟线性增加，从而影响用户体验，尤其是在CoT超过10,000个标记时。为了解决这一限制，我们分析了CoT输出中标记的语义重要性，并揭示了它们对推理的贡献各不相同。基于这一洞见，我们提出了TokenSkip，这是一种简单而有效的方法，使LLMs能够选择性地跳过不重要的标记，从而实现可控的CoT压缩。广泛的任务和模型实验表明，TokenSkip在减少CoT标记使用量的同时，能保持强大的推理性能。值得注意的是，当应用于Qwen2.5-14B-Instruct时，在GSM8K上，TokenSkip将推理标记减少了40%（从313减少到181），性能下降不到0.4%。

查看原文下载 PDF