摘要
arXiv:2504.15457v1 宣告类型: 新
摘要: 能够与新人合作是许多经济上有价值的AI任务的重要组成部分,从家庭机器人到自动驾驶汽车都是如此。然而,对新型人类的泛化需要训练数据来捕捉人类行为的多样性。对抗训练是一种寻找此类数据的方法,确保智能体具有鲁棒性。然而,在合作环境中应用这种方法是有困难的,因为对抗策略旨在故意破坏任务,而不是模拟有效的合作伙伴。为了解决这一挑战,我们提出了一种克服自我破坏的新型策略,该策略结合了预训练的生成模型来模拟有效的合作智能体策略,以及对抗训练以最大化悔恨。我们称之为我们的方法GOAT: 生成对抗性训练。在该框架中,GOAT 动态地搜索并生成合作策略,让学习策略——合作智能体——表现不佳。GOAT 通过让合作智能体接触到各种具有挑战性的交互场景,从而更好地泛化。为了保持现实的合作策略,只有更新生成模型的嵌入,而保持其参数冻结,从而避免对抗性利用。我们使用真实的human伙伴评估了GOAT,并且结果表明在Overcooked基准测试中实现了最先进的性能,突显了其在泛化到多样的人类行为方面的有效性。