摘要
arXiv:2504.04514v2 宣布类型: replace-cross
摘要:尽管大语言模型(LLMs)最近取得了成功,但在长序列推理场景中,受到注意力机制的二次计算复杂度的影响,LLMs特别具有挑战性。受神经网络模型中特征归因解释性理论的启发,我们观察到,并非所有标记的贡献程度相同。基于这一观察,我们提出了一种新颖的标记修剪框架,即基于显著性动态标记修剪(SDTP),以基于输入上下文逐步和动态地修剪冗余标记。具体来说,设计了一个轻量级的显著性驱动预测模块,用于根据每个标记的隐藏状态估算其重要性分数,并将其添加到LLM的不同层中,以层次化地修剪冗余标记。此外,我们提出了一种基于排名的优化策略,以最小化显著性得分和预测重要性得分的排名差异。广泛的实验表明,我们的框架在各类模型和数据集上具有普适性。通过层次化修剪输入标记的65%,我们的方法大大减少了33%至47%的FLOPs,推理速度提高了1.75倍,同时保持了类似的表现。我们进一步证明,SDTP可以与KV缓存压缩方法结合使用,以实现进一步的压缩。