摘要
arXiv:2409.08202v2 通知类型: replace-cross
摘要:人类视觉理解的一个独特方面是灵活解释抽象概念的能力:获取解释它们象征意义的提升规则,跨越熟悉的和不熟悉的上下文落地这些概念,以及对它们进行预测或推理。尽管现成的视觉-语言模型在进行图像的字面解释方面表现出色(例如,识别树干等对象类别),但在理解这种视觉抽象方面仍然存在问题(例如,树干的排列如何形成迷宫的墙壁)。为了解决这一挑战,我们介绍了深度结构对接(DSG)框架,该框架利用视觉抽象的显式结构化表示来进行对接和推理。DSG的核心在于模式——抽象概念的依赖图描述,将它们分解为更基本层次的符号。DSG 使用大型语言模型提取模式,然后使用视觉-语言模型分层级地将模式的具体组件对接到图像中。对接后的模式用于增强对视觉抽象的理解。我们系统地评估了DSG和不同的方法在我们新的视觉抽象数据集上的推理表现,该数据集包含由人类标注的真实世界中多样的抽象概念及其相应的问答对。我们展示了DSG显著提高了视觉-语言模型对视觉抽象的理解能力,并朝着与人类对齐的视觉抽象理解迈出了重要一步。