LLM2D
LV-XAttn: 分布式跨注意力机制用于多模态大型语言模型中的长视觉输入
LV-XAttn: Distributed Cross-Attention for Long Visual Inputs in Multimodal Large Language Models
作者: Tzu-Tao Chang, Shivaram Venkataraman
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.02406v1

摘要

arXiv:2502.02406v1 Announce Type: cross 摘要:交叉注意力在多模态大语言模型(MLLMs)中广泛采用,用于将视觉信息整合到语言骨干中。然而,在处理大量视觉输入的应用中,如视频理解,交叉注意力层中的大量视觉标记处理会导致高内存需求,并且通常需要在多个GPU之间进行分布式计算。现有的分布式注意力机制面临显著的通信开销,使得交叉注意力层成为MLLMs高效训练和推理过程中的关键瓶颈。为了解决这个问题,我们提出了一种具有最小通信开销的分布式精确交叉注意力机制LV-XAttn。我们观察到,在涉及大量视觉输入的应用中,查询块的大小通常远小于键值块的大小。因此,在LV-XAttn中,我们在每个GPU上保留大型的键值块,并在GPU之间交换较小的查询块。我们还引入了一种高效的激活重新计算技术,以支持更长的视觉上下文。我们在理论上分析了LV-XAttn的通信优势,并证明它可以适用于各种模型。我们的评估使用mPLUG-Owl3和OpenFlamingo模型发现,LV-XAttn相对于现有方法可以实现高达5.58倍的端到端加速。