摘要
arXiv:2504.20199v1 类型: cross
摘要:视觉语言模型(VLMs)在单图像任务中取得了显著的成功。然而,在现实世界场景中通常涉及复杂的多图像输入,这导致模型在处理复杂视觉特征中分散的关键信息时出现明显的性能下降。为了解决这一问题,我们提出了一种新的范式——焦点为中心的视觉链(Focus-Centric Visual Chain),该范式旨在增强VLMs在多图像场景中的感知、理解和推理能力。为了促进这一范式的实现,我们提出了焦点为中心的数据合成方法,这是一种可扩展的自下而上的方法,用于合成具有详细推理路径的高质量数据。通过这种方法,我们构建了VISC-150K数据集,这是一个大规模的数据集,其中包含了以焦点为中心的视觉链形式的推理数据,专门设计用于多图像任务。在七个不同的多图像基准测试上的实验结果表明,我们的方法在两个不同的模型架构中分别实现了3.16%和2.24%的平均性能提升,而不影响通用的视觉语言能力。我们的研究代表了向更具鲁棒性和能力的视觉语言系统迈进的重要一步,这些系统能够处理复杂的视觉场景。