LLM2D
一种认知范式方法探究VLMs的感知-推理接口
A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs
作者: Mohit Vaishnav, Tanel Tammet
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2501.13620v4

摘要

arXiv:2501.13620v4 Announce Type: replace-cross 摘要:人工智能领域的一个基本挑战是理解视觉语言模型(VLMs)等复杂模型背后的视觉推理认知机制。这些模型如何整合视觉感知与抽象思维,特别是在进行跨多幅图像推理或需要细微组合理解时?受到认知科学的启发,本文提出了一种结构化的评估框架,使用多样化的视觉推理任务——邦加德问题(BPs)和Winoground——来剖析VLMs的感知-推理接口。我们提出了三种不同的评估范式,模仿了人类问题解决策略:直接视觉规则学习(DVRL;整体处理)、演绎规则学习(DRL;规则萃取和应用)和成分分析(CA;通过任务无关的文本描述进行分析分解)。这些范式系统地变化认知负荷并探查处理阶段。值得注意的是,CA即使在单图像架构中也能进行多图像推理评估,并且通过对文本描述的操作,隔离了推理与感知。应用此框架,我们展示了CA能够利用强大的语言模型进行推理,从而在Bongard-OpenWorld、Bongard-HOI和Winoground等具有挑战性的基准测试中取得新的最佳性能(SOTA)。消融研究表明,当感知挑战得到缓解时,推理显著改善,揭示了一个关键性的感知瓶颈。我们的框架提供了一个有价值的诊断工具,并表明通过丰富的、任务无关的描述解耦感知与推理,对于稳健和通用的视觉智能来说是一个有前途的方向。