摘要
arXiv:2504.03991v1 Announce Type: cross
摘要:理解人类在团队中如何协作和交流对于改善人类-代理团队合作和AI辅助决策至关重要。然而,依赖大规模用户研究的数据是不实际的,因为存在物流、伦理和实践上的限制,这要求合成多种多样的人类行为模型。最近,由大规模语言模型(LLMs)驱动的智能体已被证明能够在社交环境中模仿人类行为。但是,获得一组多样化的行为需要手动设计提示的形式努力。另一方面,质量多样性(QD)优化已被证明能够生成多样化的强化学习(RL)智能体行为。在本文中,我们将QD优化与由LLMs驱动的智能体结合,以迭代地搜索能够生成多样化团队行为的提示,尤其是在长时间、多步协作的环境中。我们首先通过一项人类被试实验(n=54参与者)表明,人类在该领域中表现出多样化的协调和交流行为。然后,我们证明了我们的方法能够有效地复制人类团队合作数据中的趋势,并且能够捕捉到不便于在收集大量数据后观察到的行为。我们的研究结果突显了QD与LLMs驱动智能体的结合作为一种有效工具,用于研究多智能体协作中的团队合作和交流策略。