LLM2D

摘要

arXiv:2411.00238v2 项目类型：替换摘要：近期的研究记录了最先进的视觉语言模型（VLMs），包括多模态语言模型和文本到图像模型的显著异质性性能。这些模型能够描述和生成复杂、自然的图像系列，但在基本的多对象推理任务（如计数、定位和简单的视觉类比）上表现出令人惊讶的失败，而人类在这些任务上几乎能够达到完美。为了更好地理解这种令人困惑的成功与失败模式，我们转向认知科学和神经科学中的结合问题的理论解释，这是一个基本问题，当必须使用一个共享的表示资源来表示不同的实体（例如，表示图像中的多个对象）时会出现，这需要采用串行处理以避免干扰。我们发现，许多最先进的VLMs的困惑失败可以解释为结合问题的结果，这些失败模式与人类大脑迅速、前馈处理所表现出的限制惊人地相似。