LLM2D

摘要

arXiv:2504.04514v1 类型: 横向关联摘要: 尽管大型语言模型（LLMs）在最近取得了成功，但在长序列推理场景中，LLMs 由于注意力机制的平方级计算复杂性而特别具有挑战性。受到神经网络模型中特征归因可解释性理论的启发，我们观察到并非所有 token 对贡献都是相同的。基于这一观察，我们提出了一种新颖的 token 剪枝框架，即基于显著性动态 token 剪枝（SDTP），根据输入上下文逐步和动态地剪枝冗余 token。具体来说，设计了一个轻量级的基于显著性的预测模块，用于根据每个 token 的隐藏状态估计其重要性得分，并将其添加到 LLM 的不同层中，以分层剪枝冗余 token。此外，我们提出了一种基于排名的优化策略，以最小化显著性得分和预测重要性得分之间的排名分歧。广泛的实验表明，我们的框架可以泛化到各种模型和数据集上。通过分层剪枝 65% 的输入 token，我们的方法在推理过程中大幅减少了 33% 至 47% 的 FLOPs，并且速度提升了 1.75 倍，同时保持了相当的性能。此外，我们展示了 SDTP 可以与 KV 缓存压缩方法结合使用以进一步压缩。