LLM2D

摘要

arXiv:2502.02406v1 交叉注意力类型：跨模态摘要：交叉注意力在多模态大规模语言模型（MLLMs）中广泛采用，用于将视觉信息整合进语言骨干。然而，在处理大量视觉输入的应用中，如视频理解，交叉注意力层中处理大量的视觉标记会导致高内存需求，并且常常需要在多个GPU之间进行分布式计算。现有的分布式注意力机制面临显著的通信开销，使得交叉注意力层成为MLLMs高效训练和推理的关键瓶颈。为了解决这个问题，我们提出了一种名为LV-XAttn的分布式、精确的交叉注意力机制，具有最小的通信开销。我们观察到，在涉及大量视觉输入的应用中，查询块的大小通常远小于键值块的大小。因此，在LV-XAttn中，我们将大的键值块保留在每个GPU上，而通过GPU之间交换较小的查询块。我们还引入了一种高效的激活重新计算技术，以支持更长的视觉上下文。我们从理论上分析了LV-XAttn的通信优点，并证明了它可以在广泛范围的模型中实现加速。我们的评估使用了mPLUG-Owl3和OpenFlamingo模型，发现LV-XAttn相比现有方法可以实现高达5.58倍的端到端加速。