LLM2D

摘要

arXiv:2409.14846v2 宣告类型: 替换摘要：大型视觉-语言模型（LVLM）结合了计算机视觉和自然语言处理技术，具有巨大的应用潜力。然而，这些模型在推理过程中需要大量的资源。自适应注意力技术可以动态地减少计算冗余，从而提高效率。尽管目前的自适应注意力方法显著降低了基于Transformer的语言模型的内存需求，但这些方法并不针对LVLM进行优化。我们观察到，LVLM从远程图像令牌和局部文本令牌中生成响应，不同的模态有不同的注意力模式。这一观察促使我们为每种模态分别管理注意力。具体来说，对于视觉输入，我们存储可能有用的信息，但只计算最关键的部分。对于语言输入，我们更关注局部信息。基于我们对视觉-语言注意力模式的观察和分析，我们开发了A-VL，这是一种插拔式自适应注意力方法，旨在适应LVLM的推理。在三个视觉-语言任务和五个数据集上的广泛评估表明，我们的设计是有效的。我们的方法A-VL在减少内存使用和计算负载方面优于现有自适应注意力方法，而不影响性能。