摘要
arXiv:2504.01916v1 类型:交叉
摘要:作为前瞻性视觉-语言模型,CLIP(对比语言-图像预训练)已经在各个领域和广泛的下游视觉-语言任务中取得了显著的成功。然而,流行的CLIP模型中的文本编码器仅能处理最多77个文本令牌,这限制了它们有效地处理更长且细节丰富的配景的能力。此外,CLIP模型往往难以有效地捕捉详细的视觉和文本信息,这阻碍了它们在需要细粒度分析的任务中的表现。为了解决这些限制,我们提出了一种新的方法\textbf{FineLIP},该方法扩展了CLIP的功能。FineLIP通过引入\textbf{细粒度}对齐和\textbf{长}文本输入,增强了CL\textbf{IP}风格框架下的跨模态文本-图像映射能力。FineLIP首先扩展了位置嵌入以处理更长的文本,然后动态聚合局部图像和文本令牌。聚合结果用于强制执行细粒度令牌间的跨模态对齐。我们使用包含详细描述长配景的数据集在这两个任务上验证了我们的模型:零样本跨模态检索和文本到图像生成。定量和定性实验结果表明FineLIP的有效性,其性能优于现有最先进的方法。此外,全面的消融研究验证了FineLIP中关键设计元素的优势。