LLM2D

摘要

大型视觉-语言模型（LVLM）集成了计算机视觉和自然语言处理技术，具有巨大的应用潜力。然而，这些模型在推理过程中需要大量的资源。自适应注意力技术可以动态减少计算冗余，从而提高效率。尽管当前的自适应注意力方法显著降低了基于Transformer的语言模型的内存需求，但它们并未针对LVLMs进行优化。我们观察到，LVLMs从远程图像标记和局部文本标记生成响应，并且不同模态具有不同的注意力模式。这一观察启发我们分别管理每种模态的注意力。具体而言，对于视觉输入，我们存储可能有用信息的缓存，但仅计算最关键的部分。对于语言输入，我们更关注局部信息。基于我们对视觉-语言注意力模式的观察和分析，我们开发了A-VL，一种即插即用的自适应注意力，专为LVLM推理设计。在三个视觉-语言任务和五个数据集上的广泛评估显示了我们设计的有效性。我们的方法A-VL在减少内存使用和计算负载方面优于现有的自适应注意力方法，且不影响性能。