摘要
现有的多模态大型语言模型 (MLLM) 越来越强调对各种视觉元素(包括多个对象、文本信息和空间关系)的复杂理解。它们在全面视觉感知方面的发展取决于高质量图像-文本数据集的可用性,这些数据集提供多样化的视觉元素和全面的图像描述。然而,此类高度详细的数据集的稀缺性目前阻碍了 MLLM 社区的进步。瓶颈在于当前字幕引擎的感知能力有限,无法提供完整且准确的注释。为了促进 MLLM 在全面视觉感知方面的尖端研究,我们因此提出了感知融合 (Perceptual Fusion),它使用一种低成本但高效的字幕引擎来生成完整且准确的图像描述。具体来说,感知融合将不同的感知专家作为图像先验信息,以提供关于视觉元素的明确信息,并采用高效的 MLLM 作为中心枢纽来模拟高级 MLLM 的感知能力。我们从未经整理的 LAION 数据集中仔细选择了 100 万张具有高度代表性的图像,并使用我们开发的引擎(称为 DenseFusion-1M)生成了密集的描述。大量的实验验证了我们的引擎优于其同类产品,由此产生的数据集显著提高了现有 MLLM 在各种视觉语言基准测试中的感知和认知能力,尤其是在使用高分辨率图像作为输入时。数据集和代码已公开发布在 https://github.com/baaivision/DenseFusion。