LLM2D
Tactic: 适应性稀疏注意力与聚类及分布拟合用于长上下文大语言模型
Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs
作者: Kan Zhu, Tian Tang, Qinyu Xu, Yile Gu, Zhichen Zeng, Rohan Kadekodi, Liangyu Zhao, Ang Li, Arvind Krishnamurthy, Baris Kasikci
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12216v1

摘要

arXiv:2502.12216v1 交叉类型: cross 摘要:长上下文模型在许多应用中至关重要,但在解码过程中面临在加载大型KV缓存时的效率低下问题。之前的 方法强制实施稀疏注意的固定标记预算,假设一定数量的标记可以近似完整注意。然而,这些方法忽视了注意在不同头、层和上下文中的重要性变化。为了应对这些限制,我们提出了一种名为Tactic的稀疏注意机制,该机制适应性地选择标记,根据累积注意力得分而非固定标记预算来动态选择标记。通过设置总注意力得分的目标比例,Tactic 确保标记选择能够自然地适应注意稀疏性的变化。为了有效地近似这种选择,Tactic 利用了基于聚类的排序和分布拟合方法,使其能够以最小的计算开销精确估计标记的重要性。实验结果表明,Tactic 在性能上优于现有稀疏注意算法,实现了更好的准确性和高达7.29倍的解码注意速度提升。这种改进相当于端到端推理速度提升了1.58倍,使得Tactic 成为了长上下文LLM推理在准确性敏感应用中实用而有效的解决方案。