LLM2D
FG-CLIP:细粒度视觉与文本对齐
FG-CLIP: Fine-Grained Visual and Textual Alignment
作者: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Gengshen Zhang, Dawei Leng, Yuhui Yin
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2505.05071v1

摘要

arXiv:2505.05071v1 宣传类型: cross 摘要: 对比语言-图像预训练(CLIP)在图像-文本检索和零样本分类等多模态任务中表现出色,但由于其专注于粗粒度的短描述,因此在细粒度理解方面存在挑战。为了解决这一问题,我们提出了细粒度CLIP(FG-CLIP),通过三项关键创新增强细粒度理解。首先,我们利用大规模的多模态模型生成16亿个长描述-图像对,以捕捉全局级别的语义细节。其次,构建了一个高质量的数据集,包含1200万张图像和4000万个地区特定的边界框,这些边界框与详细的描述对齐,以确保精确且丰富的上下文表示。第三,我们整合了1000万个困难的细粒度负样本,以提高模型区分微妙语义差异的能力。为此,我们为这些数据精心设计了相应的训练方法。广泛的实验证明,FG-CLIP在各种下游任务中,包括细粒度理解、开放式词汇对象检测、图像-文本检索和通用多模态基准测试中,均优于原始的CLIP和其它最先进的方法。这些结果突显了FG-CLIP在捕获细粒度图像细节和提高整体模型性能方面的有效性。相关数据、代码和模型可在 https://github.com/360CVGroup/FG-CLIP 获取。