LLM2D

摘要

arXiv:2504.04514v2 宣布类型: replace-cross 摘要：尽管大语言模型（LLMs）最近取得了成功，但在长序列推理场景中，受到注意力机制的二次计算复杂度的影响，LLMs特别具有挑战性。受神经网络模型中特征归因解释性理论的启发，我们观察到，并非所有标记的贡献程度相同。基于这一观察，我们提出了一种新颖的标记修剪框架，即基于显著性动态标记修剪（SDTP），以基于输入上下文逐步和动态地修剪冗余标记。具体来说，设计了一个轻量级的显著性驱动预测模块，用于根据每个标记的隐藏状态估算其重要性分数，并将其添加到LLM的不同层中，以层次化地修剪冗余标记。此外，我们提出了一种基于排名的优化策略，以最小化显著性得分和预测重要性得分的排名差异。广泛的实验表明，我们的框架在各类模型和数据集上具有普适性。通过层次化修剪输入标记的65%，我们的方法大大减少了33%至47%的FLOPs，推理速度提高了1.75倍，同时保持了类似的表现。我们进一步证明，SDTP可以与KV缓存压缩方法结合使用，以实现进一步的压缩。