LLM2D
一种认知范式方法探究VLMs中的感知-推理接口
A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs
作者: Mohit Vaishnav, Tanel Tammet
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2501.13620v3

摘要

arXiv:2501.13620v3 宣告类型: 替换-交叉 摘要:人工智能领域的一个基本挑战是理解视觉语言模型(VLMs)中复杂的视觉推理背后的心理过程。这些模型是如何将视觉感知与抽象思维结合起来,特别是在跨越多张图片进行推理时?受到认知科学的启发,本文提出了一种结构化的评估框架,使用鲍格尔问题(Bongard Problems,BPs)——这是一种经典的视觉抽象测试,用来剖析VLMs中的感知-推理界面。我们提出了三种不同的评估范式,模仿人类的问题解决策略:直接视觉规则学习(DVRL;整体处理)、演绎规则学习(DRL;规则提取和应用)和组分分析(CA;通过文本描述进行分析分解)。这些范式使我们能够系统地改变认知负荷并探查特定处理阶段。值得注意的是,CA范式使我们能够在架构上仅限于单张图片的VLMs中评估多图片推理,并通过控制描述输入来隔离推理能力与感知限制。进一步的消融研究还证实,当减轻感知挑战时,推理能力会显著提高。我们的框架提供了一个有价值的诊断工具,突出了增强视觉处理精度的必要性,以实现更稳健和类似人类的视觉智能。