LLM2D

摘要

现有的多模态大型语言模型 (MLLM) 越来越强调对各种视觉元素（包括多个对象、文本信息和空间关系）的复杂理解。它们在全面视觉感知方面的发展取决于高质量图像-文本数据集的可用性，这些数据集提供多样化的视觉元素和全面的图像描述。然而，此类高度详细的数据集的稀缺性目前阻碍了 MLLM 社区的进步。瓶颈在于当前字幕引擎的感知能力有限，无法提供完整且准确的注释。为了促进 MLLM 在全面视觉感知方面的尖端研究，我们因此提出了感知融合 (Perceptual Fusion)，它使用一种低成本但高效的字幕引擎来生成完整且准确的图像描述。具体来说，感知融合将不同的感知专家作为图像先验信息，以提供关于视觉元素的明确信息，并采用高效的 MLLM 作为中心枢纽来模拟高级 MLLM 的感知能力。我们从未经整理的 LAION 数据集中仔细选择了 100 万张具有高度代表性的图像，并使用我们开发的引擎（称为 DenseFusion-1M）生成了密集的描述。大量的实验验证了我们的引擎优于其同类产品，由此产生的数据集显著提高了现有 MLLM 在各种视觉语言基准测试中的感知和认知能力，尤其是在使用高分辨率图像作为输入时。数据集和代码已公开发布在 https://github.com/baaivision/DenseFusion。