LLM2D
视觉-语言组成性理解的因果图形模型
Causal Graphical Models for Vision-Language Compositional Understanding
作者: Fiorenzo Parascandolo, Nicholas Moratelli, Enver Sangineto, Lorenzo Baraldi, Rita Cucchiara
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2412.09353v2

摘要

arXiv:2412.09353v2 通知类型: 替换-交叉 摘要:近期的工作经验表明,Vision-Language 模型(VLMs)在完全理解人类语言的组合性质方面存在困难,通常将图像字幕视为“词袋”。因此,他们在需要更深刻理解句子中不同实体(主语、动词等)及其相互关系的组合任务上表现不佳。在本文中,我们使用依赖解析器构建因果图模型(CGM)来建模文本和视觉标记之间的依赖关系,并且训练一个由 VLM 视觉编码器条件化的解码器。不同于标准的自回归或并行预测,我们的解码器的生成过程是部分有序的,遵循 CGM 的结构。这种结构促使解码器仅学习句子中的主要因果依赖关系,而忽略伪相关性。在五个组合基准上的广泛实验表明,我们的方法在所有最新的组合方法上显著地表现出更优的效果,并且也优于使用更大数据集训练的方法。