LLM2D

摘要

arXiv:2501.05767v3 Announce Type: replace-cross 摘要：近年来，多模态大语言模型（MLLMs）在单张图像的精细感知和多张图像的综合理解方面取得了显著进展。然而，现有的MLLMs在复杂多图场景中实现精确的语义对齐仍然面临挑战。为了解决这个问题，我们首先探索了一种Chain-of-Thought（CoT）框架，将单张图像的语义对齐与多张图像的理解结合起来。虽然部分有效，但由于其非端到端的性质，该框架仍然不稳定，并且难以捕捉抽象的视觉信息。因此，我们引入了Migician，这是第一个能够在多张图像上进行自由形式且准确的语义对齐的多图语义对齐模型。为此，我们提出了MGrounding-630k数据集，该数据集包含源自现有数据集的多种多图语义对齐任务数据，以及新生成的自由形式的语义对齐指令遵循数据。此外，我们还提出了MIG-Bench，这是一种专门用于评估多图像语义对齐能力的综合基准。实验结果表明，我们的模型在多图语义对齐能力上取得了显著的优越性，比现有的最佳MLLMs高出24.94%，甚至超越了更大的70B模型。我们的代码、模型、数据集和基准已经完全开源，可以在https://migician-vg.github.io/找到。