LLM2D

摘要

arXiv:2502.09601v1 通告类型: 新摘要: 链式思考极大地增强了模型的推理能力，但同时也因长链而导致推理成本显著增加。经过观察，在容易的任务上，推理路径可以轻易被压缩，但在困难的任务上则会遇到挑战。为此，我们探索了一种只使用一个模型弹性控制推理路径长度的可能性，从而根据任务难度动态地减少推理模型的推理开销。我们引入了一种新的调优和推理策略，名为 CoT-Valve，设计用于使模型能够生成不同长度的推理链。为了实现这一目标，我们提出了一种方法，即识别参数空间中的一个方向，在调整该方向时，可以有效控制生成的链式思考（CoT）的长度。此外，我们展示了这种属性在压缩推理链方面的价值。我们构建了从长链到短链的相同问题的数据集，并探索了 CoT-Valve 的两种增强策略：(1) 精确长度可压缩的 CoT 调优方法，以及 (2) 逐步链式思考长度压缩方法。我们的实验表明，CoT-Valve 成功地实现了推理链的可控性和压缩性，并且在性能上优于基于提示的控制。我们将这种方法应用于 QwQ-32B-Preview，将 GSM8K 的推理链从 741 个 token 减少到 225 个 token，性能略有下降（95.07% 到 94.92%），而在 AIME 上将 token 从 6827 减少到 4629，只增加了一个额外的错误答案。