LLM2D

摘要

arXiv:2411.18620v2 宣告类型: 替换摘要: 最近在自回归多模态大型语言模型(MLLMs)方面的进展展示了在视觉-语言任务中取得的有前途的进展。虽然有许多研究探讨了大型语言模型中语言信息的处理机制，但对于MLLMs内部的工作机制以及视觉和语言信息在这些模型中的交互方式，目前了解还很少。在这项研究中，我们旨在通过研究MLLMs中不同模态——语言和视觉——之间的信息流来弥补这一空白，尤其是针对视觉问答任务。具体来说，给定一张图像和一个问题作为输入，我们研究了视觉和语言信息如何在模型中结合以生成最终预测。通过对LLaVA系列的一系列模型进行实验，我们发现整合这两种模态的过程中有两个不同的阶段。在较低的层中，模型首先将整个图像的更通用的视觉特征转移到问题词汇的表示中。在中间层，它再次将与问题相关特定对象的视觉信息转移到问题的相应词汇位置上。最后，在较高的层中，生成的多模态表示被传播到输入序列的最后一个位置以生成最终预测。总体而言，我们的发现为MLLMs中图像和语言处理的空间和功能方面的提供了新的和全面的观点，从而促进了未来关于多模态信息定位和编辑的研究。我们的代码和收集的数据集在此处发布：https://github.com/FightingFighting/cross-modal-information-flow-in-MLLM.git。