LLM2D

摘要

arXiv:2404.02690v2 类型: replace-cross 摘要: 稀疏注意是一种近似标准注意计算的技术，其复杂度低于二次。这通过在计算 softmax 函数时选择性地忽略注意矩阵中的较小条目来实现。这项技术的各种变体，如剪枝 KV 缓存、基于稀疏性的快速注意和稀疏变换器，已被广泛用于高效的大规模语言模型（LLMs）部署。尽管它的使用非常普遍，但稀疏注意与传统注意在性能上相当的条件的理论理解仍然不足。本文旨在通过检查标准注意过程的固有稀疏性来 **弥合这一差距**。我们的理论框架揭示了几条全新的关键见解： $\bullet$ 注意是 $n^{C}$ 稀疏的，这意味着从所有 $n$ 个条目中仅考虑最大的 $\Omega(n^{C})$ 条目即可使稀疏注意能够近似出精确的注意矩阵，且损失逐渐减小。这里，$n$ 表示输入长度，且 $C \in (0, 1)$ 是一个常数。 $\bullet$ 稳定的 $o(\log(n))$ 稀疏注意，其通过 $\log(n)$ 或更少的条目近似注意计算，可能不可行，因为误差将至少保持在 $O(1)$ 级。 $\bullet$ 对于灵活上下文长度的推理任务，高效注意方法的窗大小自适应策略（$\alpha \cdot n^C, \alpha \in \mathbb{R}$）而非固定的策略，能够实现更准确和更高效的性能。