LLM2D
通过绑定问题的视角理解视觉语言模型的限制
Understanding the Limits of Vision Language Models Through the Lens of the Binding Problem
作者: Declan Campbell, Sunayana Rane, Tyler Giallanza, Nicol\`o De Sabbata, Kia Ghods, Amogh Joshi, Alexander Ku, Steven M. Frankland, Thomas L. Griffiths, Jonathan D. Cohen, Taylor W. Webb
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2411.00238v2

摘要

arXiv:2411.00238v2 项目类型:替换 摘要:近期的研究记录了最先进的视觉语言模型(VLMs),包括多模态语言模型和文本到图像模型的显著异质性性能。这些模型能够描述和生成复杂、自然的图像系列,但在基本的多对象推理任务(如计数、定位和简单的视觉类比)上表现出令人惊讶的失败,而人类在这些任务上几乎能够达到完美。为了更好地理解这种令人困惑的成功与失败模式,我们转向认知科学和神经科学中的结合问题的理论解释,这是一个基本问题,当必须使用一个共享的表示资源来表示不同的实体(例如,表示图像中的多个对象)时会出现,这需要采用串行处理以避免干扰。我们发现,许多最先进的VLMs的困惑失败可以解释为结合问题的结果,这些失败模式与人类大脑迅速、前馈处理所表现出的限制惊人地相似。