摘要
大型基础模型构建的多模态智能体取得了快速进展,但它们在协作任务中基于语言的智能体间通信的潜力却被很大程度上忽视了。这一疏忽暴露了我们在理解其在现实世界部署中的有效性方面的一个关键差距,尤其是在与人类进行交流时。现有的智能体基准测试未能解决智能体间通信和协作的关键方面,特别是在智能体对信息的访问权不平等且必须共同努力才能完成超出个人能力范围的任务的情况下。为了填补这一空白,我们引入了一个新的基准测试,旨在通过语言交流来评估多模态多智能体系统的协作性能。我们的基准测试包含各种场景,对通信协作环境中的四类智能体能力进行了全面评估。通过使用开源和闭源模型测试智能体间和智能体与人类之间的协作,我们的发现揭示了最先进模型的令人惊讶的弱点,包括 GPT-4o 等专有模型。这些模型在智能体间协作中难以超越简单的随机智能体基线,只有在人类参与的情况下才能超越随机基线。