LLM2D

摘要

arXiv:2501.13620v4 Announce Type: replace-cross 摘要：人工智能领域的一个基本挑战是理解视觉语言模型（VLMs）等复杂模型背后的视觉推理认知机制。这些模型如何整合视觉感知与抽象思维，特别是在进行跨多幅图像推理或需要细微组合理解时？受到认知科学的启发，本文提出了一种结构化的评估框架，使用多样化的视觉推理任务——邦加德问题（BPs）和Winoground——来剖析VLMs的感知-推理接口。我们提出了三种不同的评估范式，模仿了人类问题解决策略：直接视觉规则学习（DVRL；整体处理）、演绎规则学习（DRL；规则萃取和应用）和成分分析（CA；通过任务无关的文本描述进行分析分解）。这些范式系统地变化认知负荷并探查处理阶段。值得注意的是，CA即使在单图像架构中也能进行多图像推理评估，并且通过对文本描述的操作，隔离了推理与感知。应用此框架，我们展示了CA能够利用强大的语言模型进行推理，从而在Bongard-OpenWorld、Bongard-HOI和Winoground等具有挑战性的基准测试中取得新的最佳性能（SOTA）。消融研究表明，当感知挑战得到缓解时，推理显著改善，揭示了一个关键性的感知瓶颈。我们的框架提供了一个有价值的诊断工具，并表明通过丰富的、任务无关的描述解耦感知与推理，对于稳健和通用的视觉智能来说是一个有前途的方向。