摘要
arXiv:2404.02690v2 类型: replace-cross
摘要: 稀疏注意是一种近似标准注意计算的技术,其复杂度低于二次。这通过在计算 softmax 函数时选择性地忽略注意矩阵中的较小条目来实现。这项技术的各种变体,如剪枝 KV 缓存、基于稀疏性的快速注意和稀疏变换器,已被广泛用于高效的大规模语言模型(LLMs)部署。尽管它的使用非常普遍,但稀疏注意与传统注意在性能上相当的条件的理论理解仍然不足。本文旨在通过检查标准注意过程的固有稀疏性来 **弥合这一差距**。我们的理论框架揭示了几条全新的关键见解:
$\bullet$ 注意是 $n^{C}$ 稀疏的,这意味着从所有 $n$ 个条目中仅考虑最大的 $\Omega(n^{C})$ 条目即可使稀疏注意能够近似出精确的注意矩阵,且损失逐渐减小。这里,$n$ 表示输入长度,且 $C \in (0, 1)$ 是一个常数。
$\bullet$ 稳定的 $o(\log(n))$ 稀疏注意,其通过 $\log(n)$ 或更少的条目近似注意计算,可能不可行,因为误差将至少保持在 $O(1)$ 级。
$\bullet$ 对于灵活上下文长度的推理任务,高效注意方法的窗大小自适应策略($\alpha \cdot n^C, \alpha \in \mathbb{R}$)而非固定的策略,能够实现更准确和更高效的性能。