摘要
arXiv:2412.01814v2 更新类型: 替换-交叉
摘要:使用对比损失训练的视觉-语言模型 (VLM) 在各种视觉和语言任务中取得了显著的进展。然而,对比损失的全球性质导致 VLM 主要关注前景物体,忽视了图片中的其他重要信息,这限制了它们在下游任务中的效果。为了解决这些挑战,我们提出了 COSMOS:跨模态自蒸馏(Vision-Language 预训练)。COSMOS 结合了一种新颖的文字裁剪策略和跨注意力模块,将其纳入自监督学习框架。我们为视觉语言模型创建了全局和局部视图(即多模态增强),这对于自蒸馏是必不可少的。我们还引入了一个跨注意力模块,使得 COSMOS 能够通过跨模态自蒸馏损失学习全面的跨模态表示。COSMOS 在各种零样本下游任务(包括检索、分类和语义分割)中均优于之前的强大基线。此外,COSMOS 在视觉感知和上下文理解任务中也超过了在更大数据集上训练的 CLIP 模型。代码可以在 https://github.com/ExplainableML/cosmos 获取。