摘要
arXiv:2501.13620v5 公告类型: 替换-交叉
摘要:人工智能中一个基本的挑战是理解视觉语言模型(VLMs)等复杂模型背后的认知机制,这些模型在视觉推理中的作用。这些模型是如何将视觉感知与抽象思维结合起来的,尤其是在进行跨多幅图像的推理或需要精细化合成理解时?受到认知科学的启发,本文提出了一种结构化的评估框架,使用多种视觉推理任务-Bongard问题(BPs)和Winoground来剖析VLMs中的感知-推理界面。我们提出了三种不同的评估范式,与人类解决问题策略相对应:直接视觉规则学习(DVRL;全局处理)、演绎规则学习(DRL;规则的提取和应用),以及成分分析(CA;通过任务无关的文本描述进行分析分解)。这些范式系统地变化认知负荷并探索处理阶段。值得注意的是,CA即使对于单幅图像架构也能够评估多图像推理,并通过操作文本描述将推理与感知分离。应用此框架,我们展示了CA能够通过强大的语言模型来进行丰富且独立生成的描述推理,从而在包括Bongard-OpenWorld、Bongard-HOI和Winoground在内的具有挑战性的基准测试中达到新的最新性能(SOTA)。消融研究证实,当感知挑战被缓解时,推理的提升是非常显著的,这揭示了一个关键的感知瓶颈。我们的框架提供了一个有价值的诊断工具,并表明通过丰富且任务无关的描述使感知与推理分离,是一个有助于实现稳健且通用的视觉智能的成功方向。