LLM2D
TULIP: 向统一语言-图像预训练目标迈进
TULIP: Towards Unified Language-Image Pretraining
作者: Zineng Tang, Long Lian, Seun Eisape, XuDong Wang, Roei Herzig, Adam Yala, Alane Suhr, Trevor Darrell, David M. Chan
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2503.15485v2

摘要

arXiv:2503.15485v2 宣告类型: 替换交叉 摘要:尽管像CLIP和SigLIP这样的图像-文本对比模型最近取得了成功,但这些模型在要求高保真图像理解的任务上常常表现不佳,例如计数、深度估计和细粒度对象识别。通过进行语言对齐,这些模型倾向于优先考虑高阶语义而非视觉理解,从而削弱了它们的图像理解能力。另一方面,专注于视觉的模型在处理视觉信息方面表现出色,但在理解语言方面存在困难,限制了它们在以语言为导向的任务上的灵活性。在这项工作中,我们引入了TULIP,一个开源的、可插入替代现有CLIP类模型的方法。我们的方法利用生成性数据增强、增强的图像-图像和文本-文本对比学习以及图像/文本重建正则化,同时学习细粒度的视觉特征并保留全局语义对齐。我们的方法扩展到超过1亿参数,跨多个基准测试优于现有的最佳模型(SOTA),在ImageNet-1K上建立了一项新的零样本性能,在RxRx1上的线性探针少样本分类中对SigLIP的性能增强最高可达2倍,并在MMVP上比SigLIP的得分提高超过3倍。我们的代码/检查点可在 https://tulip-berkeley.github.io 获得。