LLM2D

摘要

arXiv:2412.09353v2 通知类型: 替换-交叉摘要：近期的工作经验表明，Vision-Language 模型（VLMs）在完全理解人类语言的组合性质方面存在困难，通常将图像字幕视为“词袋”。因此，他们在需要更深刻理解句子中不同实体（主语、动词等）及其相互关系的组合任务上表现不佳。在本文中，我们使用依赖解析器构建因果图模型（CGM）来建模文本和视觉标记之间的依赖关系，并且训练一个由 VLM 视觉编码器条件化的解码器。不同于标准的自回归或并行预测，我们的解码器的生成过程是部分有序的，遵循 CGM 的结构。这种结构促使解码器仅学习句子中的主要因果依赖关系，而忽略伪相关性。在五个组合基准上的广泛实验表明，我们的方法在所有最新的组合方法上显著地表现出更优的效果，并且也优于使用更大数据集训练的方法。