LLM2D

摘要

arXiv:2504.03991v1 Announce Type: cross 摘要：理解人类在团队中如何协作和交流对于改善人类-代理团队合作和AI辅助决策至关重要。然而，依赖大规模用户研究的数据是不实际的，因为存在物流、伦理和实践上的限制，这要求合成多种多样的人类行为模型。最近，由大规模语言模型（LLMs）驱动的智能体已被证明能够在社交环境中模仿人类行为。但是，获得一组多样化的行为需要手动设计提示的形式努力。另一方面，质量多样性（QD）优化已被证明能够生成多样化的强化学习（RL）智能体行为。在本文中，我们将QD优化与由LLMs驱动的智能体结合，以迭代地搜索能够生成多样化团队行为的提示，尤其是在长时间、多步协作的环境中。我们首先通过一项人类被试实验（n=54参与者）表明，人类在该领域中表现出多样化的协调和交流行为。然后，我们证明了我们的方法能够有效地复制人类团队合作数据中的趋势，并且能够捕捉到不便于在收集大量数据后观察到的行为。我们的研究结果突显了QD与LLMs驱动智能体的结合作为一种有效工具，用于研究多智能体协作中的团队合作和交流策略。