摘要
arXiv:2409.14846v2 宣告类型: 替换
摘要:大型视觉-语言模型(LVLM)结合了计算机视觉和自然语言处理技术,具有巨大的应用潜力。然而,这些模型在推理过程中需要大量的资源。自适应注意力技术可以动态地减少计算冗余,从而提高效率。尽管目前的自适应注意力方法显著降低了基于Transformer的语言模型的内存需求,但这些方法并不针对LVLM进行优化。我们观察到,LVLM从远程图像令牌和局部文本令牌中生成响应,不同的模态有不同的注意力模式。这一观察促使我们为每种模态分别管理注意力。具体来说,对于视觉输入,我们存储可能有用的信息,但只计算最关键的部分。对于语言输入,我们更关注局部信息。基于我们对视觉-语言注意力模式的观察和分析,我们开发了A-VL,这是一种插拔式自适应注意力方法,旨在适应LVLM的推理。在三个视觉-语言任务和五个数据集上的广泛评估表明,我们的设计是有效的。我们的方法A-VL在减少内存使用和计算负载方面优于现有自适应注意力方法,而不影响性能。