摘要
多模态大型语言模型 (MLLMs) 表现出令人印象深刻的能力。然而,最近发现,与人类智能相比,MLLMs 存在许多缺陷,例如幻觉。为了推动 MLLMs 的研究,社区致力于构建具有复杂任务的更大基准。在本文中,我们建议对一项基本但通常被忽视的智能进行基准测试:**联想**,这是人类将观察结果与先前实践记忆联系起来的 基本能力。为了全面调查 MLLMs 在联想方面的表现,我们制定了联想任务,并基于形容词和动词语义概念设计了一个标准基准。我们没有采用成本高昂的数据标注和整理,而是提出了一种便捷的**无标注**构建方法,将通用数据集转换为我们的联想任务。同时,我们设计了一个严格的数据细化过程,以消除原始数据集中的混淆。在此数据库的基础上,我们建立了三个级别的联想任务:单步联想、同步联想和异步联想。此外,我们对 MLLMs 的零样本联想能力进行了全面调查,涵盖多个维度,包括三种不同的记忆策略、开源和闭源 MLLMs、最先进的专家混合模型 (MoE) 以及人类专家的参与。我们的系统调查表明,目前开源的 MLLMs 在我们的联想任务中始终表现出较差的能力,即使是目前最先进的 GPT-4V(视觉)与人类相比也存在显著差距。我们相信我们的基准将为未来的 MLLM 研究铺平道路。 _我们的数据和代码可从以下网址获取:_ https://mvig-rhos.com/llm_inception.