摘要
arXiv:2504.04514v1 类型: 横向关联
摘要: 尽管大型语言模型(LLMs)在最近取得了成功,但在长序列推理场景中,LLMs 由于注意力机制的平方级计算复杂性而特别具有挑战性。受到神经网络模型中特征归因可解释性理论的启发,我们观察到并非所有 token 对贡献都是相同的。基于这一观察,我们提出了一种新颖的 token 剪枝框架,即基于显著性动态 token 剪枝(SDTP),根据输入上下文逐步和动态地剪枝冗余 token。具体来说,设计了一个轻量级的基于显著性的预测模块,用于根据每个 token 的隐藏状态估计其重要性得分,并将其添加到 LLM 的不同层中,以分层剪枝冗余 token。此外,我们提出了一种基于排名的优化策略,以最小化显著性得分和预测重要性得分之间的排名分歧。广泛的实验表明,我们的框架可以泛化到各种模型和数据集上。通过分层剪枝 65% 的输入 token,我们的方法在推理过程中大幅减少了 33% 至 47% 的 FLOPs,并且速度提升了 1.75 倍,同时保持了相当的性能。此外,我们展示了 SDTP 可以与 KV 缓存压缩方法结合使用以进一步压缩。