摘要
arXiv:2502.13928v1 Announce Type: cross
摘要:近期的研究表明,大型视觉-语言模型(VLMs)往往会忽略图像内容,过度依赖语言模型的先验知识,导致视觉接地任务中的错误和幻觉。我们假设这一问题的原因是现有的VLMs并没有明确地训练产生与细粒度图像细节准确对接的文字。为了在VLM训练期间增强视觉反馈,我们提出了S-VCO(对称视觉对比优化),这是一种全新的微调目标,引导模型捕捉重要的视觉细节并且与相应的文本标记对齐。为了进一步促进这种详细对齐,我们引入了MVC,这是一种构建数据集,通过自动过滤和增强视觉反事实数据,挑战模型面对包含最小视觉对比的难对比案例。实验表明,我们的方法在涵盖不同能力和领域的各种基准测试中一致地提高了VLM的性能,实现了高达22%的幻觉减少,并在视觉中心任务和一般任务上取得了显著进步。值得注意的是,这些改进在更高视觉依赖性的基准测试中表现得更加明显。简而言之,S-VCO为VLM在视觉依赖任务上的性能提供了显著增强,同时保持或甚至提高了模型的一般能力。我们在https://s-vco.github.io/开源了我们的代码。