LLM2D

摘要

arXiv:2501.13620v5 公告类型: 替换-交叉摘要：人工智能中一个基本的挑战是理解视觉语言模型（VLMs）等复杂模型背后的认知机制，这些模型在视觉推理中的作用。这些模型是如何将视觉感知与抽象思维结合起来的，尤其是在进行跨多幅图像的推理或需要精细化合成理解时？受到认知科学的启发，本文提出了一种结构化的评估框架，使用多种视觉推理任务-Bongard问题（BPs）和Winoground来剖析VLMs中的感知-推理界面。我们提出了三种不同的评估范式，与人类解决问题策略相对应：直接视觉规则学习（DVRL；全局处理）、演绎规则学习（DRL；规则的提取和应用），以及成分分析（CA；通过任务无关的文本描述进行分析分解）。这些范式系统地变化认知负荷并探索处理阶段。值得注意的是，CA即使对于单幅图像架构也能够评估多图像推理，并通过操作文本描述将推理与感知分离。应用此框架，我们展示了CA能够通过强大的语言模型来进行丰富且独立生成的描述推理，从而在包括Bongard-OpenWorld、Bongard-HOI和Winoground在内的具有挑战性的基准测试中达到新的最新性能（SOTA）。消融研究证实，当感知挑战被缓解时，推理的提升是非常显著的，这揭示了一个关键的感知瓶颈。我们的框架提供了一个有价值的诊断工具，并表明通过丰富且任务无关的描述使感知与推理分离，是一个有助于实现稳健且通用的视觉智能的成功方向。