摘要
arXiv:2411.00238v2 项目类型:替换
摘要:近期的研究记录了最先进的视觉语言模型(VLMs),包括多模态语言模型和文本到图像模型的显著异质性性能。这些模型能够描述和生成复杂、自然的图像系列,但在基本的多对象推理任务(如计数、定位和简单的视觉类比)上表现出令人惊讶的失败,而人类在这些任务上几乎能够达到完美。为了更好地理解这种令人困惑的成功与失败模式,我们转向认知科学和神经科学中的结合问题的理论解释,这是一个基本问题,当必须使用一个共享的表示资源来表示不同的实体(例如,表示图像中的多个对象)时会出现,这需要采用串行处理以避免干扰。我们发现,许多最先进的VLMs的困惑失败可以解释为结合问题的结果,这些失败模式与人类大脑迅速、前馈处理所表现出的限制惊人地相似。