LLM2D

摘要

arXiv:2502.08363v1 类别: cross 摘要: 注意机制是基于变压器的巨大语言模型（LLMs）令人印象深刻的性能的关键。然而，由于注意机制对序列长度的二次依赖，计算注意力是计算密集型的。我们提出了一种名为 Top-Theta 注意的新方法，或简称为 Top-$\theta$，该方法通过与精细校准的阈值进行比较，选择性地修剪不太关键的注意元素。这种方法极大地提高了自我注意矩阵乘法的效率，同时保持了模型的准确性，在生成解码阶段将所需的 V 缓存行数量减少了 3 倍，在预填充阶段将注意元素数量减少了 10 倍。我们的方法不需要重新训练模型；相反，它只需要一个简短的校准阶段来应对分布偏移，从而无需根据不同的数据集重新校准阈值。与 top-k 注意不同的是，Top-$\theta$ 消除了全向量依赖，使其适用于分片和横向扩展，并避免了昂贵的 top-k 搜索。我们方法的一个关键创新是发展了有效的数值补偿技术，即使在大幅度修剪注意分数的情况下，也能帮助保持模型的准确性。