LLM2D

摘要

arXiv:2502.11925v1 宣告类型: 新摘要：多模态大型语言模型（MLLMs）的快速发展使得多种模态，包括文本和图像，可以在大型语言模型（LLM）框架内进行整合。然而，文本和图像通常相互连接，形成多模态属性图（MMAG）。在这样的图上如何结合MLLMs的关联信息（即，图结构）和语义信息（即，文本和图像）以实现多模态理解和生成，这一领域尚未得到充分探索。本文中，我们提出了GraphGPT-o，它支持在MMAGs上进行全方位多模态理解和创作。我们首先全面研究了线性化变体，将语义和结构信息转换为MLLMs的输入。然后，我们提出了一种分层对齐器，使MLLMs能够进行深层次的图编码，从而弥合MMAGs和MLLMs之间的差距。最后，我们在图场景中探索了推理选择，使MLLMs适应交错的文本和图像生成。来自不同领域的三个数据集的广泛实验表明我们提出的方法的有效性。接受后，我们将公开提供数据集和代码。