LLM2D

摘要

arXiv:2412.01814v2 更新类型: 替换-交叉摘要：使用对比损失训练的视觉-语言模型 (VLM) 在各种视觉和语言任务中取得了显著的进展。然而，对比损失的全球性质导致 VLM 主要关注前景物体，忽视了图片中的其他重要信息，这限制了它们在下游任务中的效果。为了解决这些挑战，我们提出了 COSMOS：跨模态自蒸馏(Vision-Language 预训练)。COSMOS 结合了一种新颖的文字裁剪策略和跨注意力模块，将其纳入自监督学习框架。我们为视觉语言模型创建了全局和局部视图（即多模态增强），这对于自蒸馏是必不可少的。我们还引入了一个跨注意力模块，使得 COSMOS 能够通过跨模态自蒸馏损失学习全面的跨模态表示。COSMOS 在各种零样本下游任务（包括检索、分类和语义分割）中均优于之前的强大基线。此外，COSMOS 在视觉感知和上下文理解任务中也超过了在更大数据集上训练的 CLIP 模型。代码可以在 https://github.com/ExplainableML/cosmos 获取。