LLM2D

摘要

arXiv:2502.13928v1 Announce Type: cross 摘要：近期的研究表明，大型视觉-语言模型（VLMs）往往会忽略图像内容，过度依赖语言模型的先验知识，导致视觉接地任务中的错误和幻觉。我们假设这一问题的原因是现有的VLMs并没有明确地训练产生与细粒度图像细节准确对接的文字。为了在VLM训练期间增强视觉反馈，我们提出了S-VCO（对称视觉对比优化），这是一种全新的微调目标，引导模型捕捉重要的视觉细节并且与相应的文本标记对齐。为了进一步促进这种详细对齐，我们引入了MVC，这是一种构建数据集，通过自动过滤和增强视觉反事实数据，挑战模型面对包含最小视觉对比的难对比案例。实验表明，我们的方法在涵盖不同能力和领域的各种基准测试中一致地提高了VLM的性能，实现了高达22%的幻觉减少，并在视觉中心任务和一般任务上取得了显著进步。值得注意的是，这些改进在更高视觉依赖性的基准测试中表现得更加明显。简而言之，S-VCO为VLM在视觉依赖任务上的性能提供了显著增强，同时保持或甚至提高了模型的一般能力。我们在https://s-vco.github.io/开源了我们的代码。