LLM2D

摘要

arXiv:2503.15485v2 宣告类型: 替换交叉摘要：尽管像CLIP和SigLIP这样的图像-文本对比模型最近取得了成功，但这些模型在要求高保真图像理解的任务上常常表现不佳，例如计数、深度估计和细粒度对象识别。通过进行语言对齐，这些模型倾向于优先考虑高阶语义而非视觉理解，从而削弱了它们的图像理解能力。另一方面，专注于视觉的模型在处理视觉信息方面表现出色，但在理解语言方面存在困难，限制了它们在以语言为导向的任务上的灵活性。在这项工作中，我们引入了TULIP，一个开源的、可插入替代现有CLIP类模型的方法。我们的方法利用生成性数据增强、增强的图像-图像和文本-文本对比学习以及图像/文本重建正则化，同时学习细粒度的视觉特征并保留全局语义对齐。我们的方法扩展到超过1亿参数，跨多个基准测试优于现有的最佳模型（SOTA），在ImageNet-1K上建立了一项新的零样本性能，在RxRx1上的线性探针少样本分类中对SigLIP的性能增强最高可达2倍，并在MMVP上比SigLIP的得分提高超过3倍。我们的代码/检查点可在 https://tulip-berkeley.github.io 获得。