LLM2D

摘要

arXiv:2501.13620v3 宣告类型: 替换-交叉摘要：人工智能领域的一个基本挑战是理解视觉语言模型（VLMs）中复杂的视觉推理背后的心理过程。这些模型是如何将视觉感知与抽象思维结合起来，特别是在跨越多张图片进行推理时？受到认知科学的启发，本文提出了一种结构化的评估框架，使用鲍格尔问题（Bongard Problems，BPs）——这是一种经典的视觉抽象测试，用来剖析VLMs中的感知-推理界面。我们提出了三种不同的评估范式，模仿人类的问题解决策略：直接视觉规则学习（DVRL；整体处理）、演绎规则学习（DRL；规则提取和应用）和组分分析（CA；通过文本描述进行分析分解）。这些范式使我们能够系统地改变认知负荷并探查特定处理阶段。值得注意的是，CA范式使我们能够在架构上仅限于单张图片的VLMs中评估多图片推理，并通过控制描述输入来隔离推理能力与感知限制。进一步的消融研究还证实，当减轻感知挑战时，推理能力会显著提高。我们的框架提供了一个有价值的诊断工具，突出了增强视觉处理精度的必要性，以实现更稳健和类似人类的视觉智能。