LLM2D

摘要

近年来，自回归多模态大型语言模型 (MLLM) 的进步在视觉语言任务中展现出令人鼓舞的前景。虽然已有大量研究调查大型语言模型中语言信息的处理方式，但目前对 MLLM 的内部工作机制以及语言和视觉信息如何在这些模型中交互作用知之甚少。本研究旨在通过检查 MLLM 中不同模态（语言和视觉）之间的信息流来填补这一空白，重点关注视觉问答。具体来说，给定图像-问题对作为输入，我们研究模型中的哪个位置以及视觉和语言信息如何结合以生成最终预测。通过对 LLaVA 系列的一系列模型进行实验，我们发现两种模态整合的过程中存在两个不同的阶段。在较低层，模型首先将整个图像的更一般的视觉特征转移到（语言）问题标记的表示中。在中间层，它再次将与问题相关的特定对象的视觉信息转移到问题的相应标记位置。最后，在较高层，将生成的多分辨率表示传播到输入序列的最后位置以进行最终预测。总的来说，我们的研究结果为 MLLM 中图像和语言处理的时空和功能方面提供了新的、全面的视角，从而促进了未来对多模态信息定位和编辑的研究。