LLM2D

摘要

arXiv:2505.05071v1 宣传类型: cross 摘要: 对比语言-图像预训练（CLIP）在图像-文本检索和零样本分类等多模态任务中表现出色，但由于其专注于粗粒度的短描述，因此在细粒度理解方面存在挑战。为了解决这一问题，我们提出了细粒度CLIP（FG-CLIP），通过三项关键创新增强细粒度理解。首先，我们利用大规模的多模态模型生成16亿个长描述-图像对，以捕捉全局级别的语义细节。其次，构建了一个高质量的数据集，包含1200万张图像和4000万个地区特定的边界框，这些边界框与详细的描述对齐，以确保精确且丰富的上下文表示。第三，我们整合了1000万个困难的细粒度负样本，以提高模型区分微妙语义差异的能力。为此，我们为这些数据精心设计了相应的训练方法。广泛的实验证明，FG-CLIP在各种下游任务中，包括细粒度理解、开放式词汇对象检测、图像-文本检索和通用多模态基准测试中，均优于原始的CLIP和其它最先进的方法。这些结果突显了FG-CLIP在捕获细粒度图像细节和提高整体模型性能方面的有效性。相关数据、代码和模型可在 https://github.com/360CVGroup/FG-CLIP 获取。