LLM2D

摘要

arXiv:2502.12216v1 交叉类型: cross 摘要：长上下文模型在许多应用中至关重要，但在解码过程中面临在加载大型KV缓存时的效率低下问题。之前的方法强制实施稀疏注意的固定标记预算，假设一定数量的标记可以近似完整注意。然而，这些方法忽视了注意在不同头、层和上下文中的重要性变化。为了应对这些限制，我们提出了一种名为Tactic的稀疏注意机制，该机制适应性地选择标记，根据累积注意力得分而非固定标记预算来动态选择标记。通过设置总注意力得分的目标比例，Tactic 确保标记选择能够自然地适应注意稀疏性的变化。为了有效地近似这种选择，Tactic 利用了基于聚类的排序和分布拟合方法，使其能够以最小的计算开销精确估计标记的重要性。实验结果表明，Tactic 在性能上优于现有稀疏注意算法，实现了更好的准确性和高达7.29倍的解码注意速度提升。这种改进相当于端到端推理速度提升了1.58倍，使得Tactic 成为了长上下文LLM推理在准确性敏感应用中实用而有效的解决方案。