LLM2D
CoT-阀:长度可压缩的思维链调优
CoT-Valve: Length-Compressible Chain-of-Thought Tuning
作者: Xinyin Ma, Guangnian Wan, Runpeng Yu, Gongfan Fang, Xinchao Wang
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.09601v1

摘要

arXiv:2502.09601v1 通告类型: 新 摘要: 链式思考极大地增强了模型的推理能力,但同时也因长链而导致推理成本显著增加。经过观察,在容易的任务上,推理路径可以轻易被压缩,但在困难的任务上则会遇到挑战。为此,我们探索了一种只使用一个模型弹性控制推理路径长度的可能性,从而根据任务难度动态地减少推理模型的推理开销。我们引入了一种新的调优和推理策略,名为 CoT-Valve,设计用于使模型能够生成不同长度的推理链。为了实现这一目标,我们提出了一种方法,即识别参数空间中的一个方向,在调整该方向时,可以有效控制生成的链式思考(CoT)的长度。此外,我们展示了这种属性在压缩推理链方面的价值。我们构建了从长链到短链的相同问题的数据集,并探索了 CoT-Valve 的两种增强策略:(1) 精确长度可压缩的 CoT 调优方法,以及 (2) 逐步链式思考长度压缩方法。我们的实验表明,CoT-Valve 成功地实现了推理链的可控性和压缩性,并且在性能上优于基于提示的控制。我们将这种方法应用于 QwQ-32B-Preview,将 GSM8K 的推理链从 741 个 token 减少到 225 个 token,性能略有下降(95.07% 到 94.92%),而在 AIME 上将 token 从 6827 减少到 4629,只增加了一个额外的错误答案。