LLM2D

摘要

多模态大型语言模型 (MLLMs) 表现出令人印象深刻的能力。然而，最近发现，与人类智能相比，MLLMs 存在许多缺陷，例如幻觉。为了推动 MLLMs 的研究，社区致力于构建具有复杂任务的更大基准。在本文中，我们建议对一项基本但通常被忽视的智能进行基准测试：**联想**，这是人类将观察结果与先前实践记忆联系起来的基本能力。为了全面调查 MLLMs 在联想方面的表现，我们制定了联想任务，并基于形容词和动词语义概念设计了一个标准基准。我们没有采用成本高昂的数据标注和整理，而是提出了一种便捷的**无标注**构建方法，将通用数据集转换为我们的联想任务。同时，我们设计了一个严格的数据细化过程，以消除原始数据集中的混淆。在此数据库的基础上，我们建立了三个级别的联想任务：单步联想、同步联想和异步联想。此外，我们对 MLLMs 的零样本联想能力进行了全面调查，涵盖多个维度，包括三种不同的记忆策略、开源和闭源 MLLMs、最先进的专家混合模型 (MoE) 以及人类专家的参与。我们的系统调查表明，目前开源的 MLLMs 在我们的联想任务中始终表现出较差的能力，即使是目前最先进的 GPT-4V（视觉）与人类相比也存在显著差距。我们相信我们的基准将为未来的 MLLM 研究铺平道路。 _我们的数据和代码可从以下网址获取：_ https://mvig-rhos.com/llm_inception.