LLM2D
A-VL:适用于大型视觉语言模型的自适应注意力机制
A-VL: Adaptive Attention for Large Vision-Language Models
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14846v1

摘要

大型视觉-语言模型(LVLM)集成了计算机视觉和自然语言处理技术,具有巨大的应用潜力。然而,这些模型在推理过程中需要大量的资源。自适应注意力技术可以动态减少计算冗余,从而提高效率。尽管当前的自适应注意力方法显著降低了基于Transformer的语言模型的内存需求,但它们并未针对LVLMs进行优化。我们观察到,LVLMs从远程图像标记和局部文本标记生成响应,并且不同模态具有不同的注意力模式。这一观察启发我们分别管理每种模态的注意力。具体而言,对于视觉输入,我们存储可能有用信息的缓存,但仅计算最关键的部分。对于语言输入,我们更关注局部信息。基于我们对视觉-语言注意力模式的观察和分析,我们开发了A-VL,一种即插即用的自适应注意力,专为LVLM推理设计。在三个视觉-语言任务和五个数据集上的广泛评估显示了我们设计的有效性。我们的方法A-VL在减少内存使用和计算负载方面优于现有的自适应注意力方法,且不影响性能。