摘要
arXiv:2502.08363v1 类别: cross
摘要: 注意机制是基于变压器的巨大语言模型(LLMs)令人印象深刻的性能的关键。然而,由于注意机制对序列长度的二次依赖,计算注意力是计算密集型的。我们提出了一种名为 Top-Theta 注意的新方法,或简称为 Top-$\theta$,该方法通过与精细校准的阈值进行比较,选择性地修剪不太关键的注意元素。这种方法极大地提高了自我注意矩阵乘法的效率,同时保持了模型的准确性,在生成解码阶段将所需的 V 缓存行数量减少了 3 倍,在预填充阶段将注意元素数量减少了 10 倍。我们的方法不需要重新训练模型;相反,它只需要一个简短的校准阶段来应对分布偏移,从而无需根据不同的数据集重新校准阈值。与 top-k 注意不同的是,Top-$\theta$ 消除了全向量依赖,使其适用于分片和横向扩展,并避免了昂贵的 top-k 搜索。我们方法的一个关键创新是发展了有效的数值补偿技术,即使在大幅度修剪注意分数的情况下,也能帮助保持模型的准确性。