摘要
arXiv:2410.07553v2 公告类型: 替换
摘要: 基于大规模基础模型构建的多模态代理的快速发展在很大程度上忽视了它们在协作任务中进行基于语言的代理间通信的潜力。这种忽视在现实中部署时带来了关键的差距,特别是在与人类通信方面。现有的代理基准未能解决多代理间通信和协作的关键方面,特别是在代理间信息获取不平等且必须共同努力完成超出个体能力的任务场景中。为了填补这一空白,我们 introduces 一个新颖的基准测试,旨在通过语言通信评估多模态多代理系统的协作性能。该基准测试包含各种场景,提供了对沟通协作环境中四种关键代理能力的全面评估。通过使用开源和封闭源模型测试代理间以及代理与人类的合作,我们的发现揭示了最先进的模型(包括私有模型如GPT-4o)中的令人惊讶的弱点。这些模型在代理间合作中甚至难以超过简单的随机代理基线,在涉及人类时才能超越随机基线。