摘要
arXiv:2410.19546v2
公告类型: 替换
摘要: 最近,新兴的视觉-语言模型(VLMs),如OpenAI的o1,已经出现,似乎在文本和图像模态之间展示了高级的推理能力。然而,这些模型在语言引导的感知和抽象推理方面的进步深度仍然未被充分探索,尚不清楚这些模型是否能够真正实现其雄心勃勃的承诺。为了评估进展并发现不足之处,我们进入了Bongard问题的奇妙世界,这是一个包含经典视觉推理谜题的集合,要求具备与人类相似的模式识别和抽象推理能力。通过我们的广泛评估设置,我们显示,尽管VLMs有时能够识别区分概念并解决一些问题,但它们经常失败。令人惊讶的是,即使是对于人类可能看似简单的概念,如简单的螺旋,也提出了重大的挑战。此外,当明确要求它们识别真实概念时,它们仍然会失败,这不仅表明它们对这些基础视觉概念的理解不足,还表明它们无法泛化到未见过的概念。我们将VLMs的结果与人类表现进行了比较,发现人类的视觉推理能力与机器认知之间仍然存在显著差距。