LLM2D

摘要

arXiv:2505.08392v1 宣布类型: cross 摘要:大规模语言模型利用链式思考(CoT)提示来执行复杂任务，但它们的推理踪迹往往过于冗长且效率低下，导致显著的计算成本和延迟。当前的CoT压缩技术通常依赖于通用的重要度度量和固定的压缩率，这可能会无意中移除功能上重要的标记，或者无法适应变化的推理复杂度。为克服这些限制，我们提出了“自适应GoGI跳过”(Adaptive GoGI-Skip)这一新颖的框架，利用监督微调来学习动态CoT压缩。这种方法引入了两项协同创新：(1) 目标梯度重要度(GoGI)，这是一种新颖的度量方法，通过测量中间表示对最终答案损失的梯度影响来准确地识别功能上相关的标记；(2) 自适应动态跳过(ADS)，这是一种机制，根据运行时模型的不确定性动态调整压缩率，同时通过自适应的N标记约束确保局部一致性。据我们所知，这是首个将目标导向的、基于梯度的重要度度量与动态的、不确定性感知的跳过相结合来压缩CoT的先例。通过压缩后的MATH数据进行训练，Adaptive GoGI-Skip在包括AIME、GPQA和GSM8K在内的各种不同的推理基准测试中显示出强大的跨域泛化能力。它在减少CoT标记数量方面取得了显著的效率提升——平均减少了超过45%的CoT标记数量，并提供了1.6至2.0倍的推理速度提升，同时保持了高水平的推理准确性。值得注意的是，在有效的压缩率较高的情况下，它显著优于现有基准，推动了CoT推理效率-准确性权衡的最新技术进展。