LLM2D
通过对抗训练和生成模型提升人际AI协调
Improving Human-AI Coordination through Adversarial Training and Generative Models
作者: Paresh Chaudhary, Yancheng Liang, Daphne Chen, Simon S. Du, Natasha Jaques
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.15457v2

摘要

arXiv:2504.15457v2 宣告类型: 替换 摘要: 能够与新认识的人合作是许多具有经济价值的AI任务的重要组成部分,从家庭机器人到自动驾驶车辆。然而,将任务推广到新型人类身上需要训练能够捕捉人类行为多样性的数据。对抗性训练是寻找此类数据并确保代理具有稳健性的方法之一。然而,在合作设置中应用这种方法存在困难,因为对抗性策略故意学习破坏任务,而不是模拟有效的合作伙伴。为了解决这一挑战,我们提出了一种克服自我破坏的新策略,该策略结合了预训练的生成模型以模拟有效的合作代理策略,并通过最大化后悔来进行对抗性训练。我们将我们的方法称为GOAT:生成型在线对抗性训练。在此框架中,GOAT动态地搜索和生成合作策略,其中学习策略——合作者代理——表现不佳。GOAT通过将合作者暴露于各种具有挑战性的交互场景中,从而提高了泛化能力。为了保持现实的合作策略,我们只更新生成模型的嵌入,而固定其参数,从而避免了对抗性利用。我们使用真实的人类合作伙伴评估了GOAT,并且结果表明,在Overcooked基准测试中表现出最先进的性能,突显了其在泛化到多样化人类行为方面的有效性。