LLM2D

摘要

arXiv:2412.15396v2 宣告类型: replace-cross 摘要：视觉想象并不是由孤立的对象组成的，而是反映了多种流动概念的组合。虽然在视觉表示学习方面取得了巨大的进展，但这些进展主要集中在构建更好的表示方法，而这些表示方法忽略了这些对象是如何相互作用的。这种局限性可以在通过描述或对比学习学习到的表示中观察到——学习到的模型基本上将图像视为一组词汇。许多工作尝试通过开发专门的学习架构来直接解决组成学习中的不足。在本文中，我们专注于简单且可扩展的方法。具体而言，我们证明通过大幅提高弱标签数据，即描述，可以极大地提高标准对比学习方法的性能。此前的CLIP模型在测试组成学习方面具有挑战性的任务时，其表现接近偶然率。然而，我们简单的方法显著提升了CLIP的表现，并超越了所有专门设计的架构。此外，我们在从DOCCI派生出的相对新的描述基准测试上展示了我们的结果。通过一系列消融实验，我们证明在增强数据下训练的标准CLIP模型可能在图像检索任务上表现出色。