摘要
近年来,视觉语言模型(VLMs)在各种视觉语言任务上取得了令人难以置信的进展。我们深入研究了基于视觉的演绎推理,这是一个更复杂但探索较少的领域,并发现了当前 SOTA VLMs 中以前未暴露的盲点。具体来说,我们利用 Raven 的渐进矩阵 (RPMs) 来评估 VLMs 在仅依靠视觉线索进行多跳关系和演绎推理方面的能力。我们对包括 Mensa 智商测试、IntelligenceTest 和 RAVEN 在内的三个不同数据集进行了全面评估,并采用了标准策略,例如上下文学习、自我一致性和思维链 (CoT)。结果表明,尽管 LLMs 在基于文本的推理方面具有令人印象深刻的能力,但我们距离在视觉演绎推理方面取得可比的熟练程度还有很长的路要走。我们发现,某些应用于 LLMs 时有效的标准策略并不能顺利地转化为视觉推理任务所带来的挑战。详细分析表明,VLMs 难以解决这些任务的主要原因是它们无法感知和理解 RPM 示例中的多个、相互矛盾的抽象模式。