摘要
arXiv:2502.14113v1 摘要类型: cross
摘要: 近年来,视觉语言模型(VLM)的发展受到了对比模型(如CLIP)的推动,这些模型学会了将视觉信息与其对应的文字描述关联起来。然而,这些模型在理解包含多个物体及其空间关系的复杂组合场景方面存在一定局限性。为了解决这些挑战,我们提出了一种新的方法,这种方法不同于依赖于设计困难负样本增强的常用策略。相反,我们的工作侧重于将归纳偏置整合到预训练的CLIP-like模型中,以提高其组合理解能力,而不使用任何额外的困难负样本。为此,我们引入了一个绑定模块,将从文本描述中获取的场景图与槽结构化图像表示连接起来,从而在两种模态之间促成结构化的相似性评估。我们还利用关系作为文本条件下的视觉约束,从而更有效地捕捉物体及其上下文关系之间的复杂互动。我们的模型不仅增强了基于CLIP的模型在多物体组合理解方面的性能,还为更准确和样本高效的复杂场景图像-文本匹配铺平了道路。