摘要
arXiv:2502.06060v1 宣告类型: 新
摘要: 在多智能体环境中,使用自然语言交流是一种强大的工具,因为它使独立的智能体能够在部分可观测环境下共享信息,并允许与人类进行零样本协调。然而,大多数先前的工作都受到限制,要么依赖于大量的人类示范进行训练,要么缺乏生成自然且有用的交流策略的能力。在这项工作中,我们训练语言模型在没有人类示范的情况下,在自然语言中进行有关环境的有成效的讨论。我们将交流问题分解为倾听和说话。我们的核心思想是利用智能体的目标来预测有关世界的信息作为密集奖励信号,该信号引导交流。具体来说,我们通过训练模型根据讨论预测环境信息来提高他们的倾听技能,并通过根据消息对其他智能体的影响来奖励消息的方式同时提高他们的说话技能,使用多智能体强化学习。为了探讨交流在复杂社交环境中的作用和必要性,我们研究了一个基于《Among Us》的体感社会推理游戏,其中的关键问题是确定敌对冒充者的身份。我们分析了由于我们技术而出现的新兴行为,例如指控嫌疑人并提供证据,并发现它能够促进强大的讨论,将胜率翻倍,与标准的RL相比。我们已在 https://socialdeductionllm.github.io/ 上发布了我们的代码和模型。