LLM2D
FG-CLIP:细粒度视觉与文本对齐
FG-CLIP: Fine-Grained Visual and Textual Alignment
作者: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Gengshen Zhang, Dawei Leng, Yuhui Yin
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.05071v2

摘要

arXiv:2505.05071v2 通知类型: 替换-交叉 摘要: 对比语言-图像预训练(CLIP)在图像-文本检索和零样本分类等多模态任务中表现出色,但由于其专注于粗粒度的简短描述,因此在细粒度理解方面存在困难。为了解决这个问题,我们提出了细粒度CLIP (FG-CLIP),该方法通过三个关键创新来增强细粒度理解。首先,我们利用大规模的多模态模型生成16亿条长描述-图像对,以捕捉全局语义细节。其次,我们构建了一个高质量的数据集,其中包括1200万张图像和4000万条与详细描述对齐的区域特定边界框,以确保精确的、上下文丰富的表示。第三,我们纳入了1000万条困难的细粒度负样本,以提高模型区分微妙语义差异的能力。我们通过将高质量的区域特定注释与具有挑战性的细粒度负样本相结合,构建了一个综合数据集,称为FgGRN。针对这些数据,精心设计了相应的训练方法。 extensive 实验表明,FG-CLIP 在包括细粒度理解、开放式词汇对象检测、图像-文本检索以及通用多模态基准在内的各种下游任务中均优于原始 CLIP 和其他最先进的方法。这些结果突显了FG-CLIP 有效捕捉细粒度图像细节并提高整体模型性能的能力。相关数据、代码和模型可在 https://github.com/360CVGroup/FG-CLIP 获取。