摘要
arXiv:2504.07091v1 声明类型: 新
摘要:辅助游戏是一种有前途的选择,可以替代带有来自人类反馈的强化学习(RLHF)来训练AI助手。辅助游戏通过明确将助手与用户的交互建模为一个两玩家游戏,解决了RLHF中的关键缺陷,如欺骗性行为的动机,其中助手无法观察到他们共同的目标。尽管它们具有潜力,但辅助游戏仅在简单设置中被探索过。将它们扩展到更复杂的环境具有挑战性,因为这需要解决不确定性下的不可计算决策问题,并准确地建模人类用户的的行为。我们提出了第一个可扩展的辅助游戏解决方法,并将其应用于一个新的、具有超过\(10^{400}\)个可能目标的Minecraft基础辅助游戏。我们的方法,AssistanceZero,在AlphaZero的基础上引入了一个神经网络来预测人类行为和奖励,使它能够在不确定性下进行规划。我们证明,在Minecraft基础辅助游戏中,AssistanceZero在无模型的RL算法和模仿学习中表现出色。在一项人类研究中,我们训练的AssistanceZero助手显著减少了参与者在完成Minecraft建筑任务时所采取的行动次数。我们的结果表明,辅助游戏是训练有效AI助手的有效框架,在复杂环境中是可行的。我们的代码和模型可在https://github.com/cassidylaidlaw/minecraft-building-assistance-game 获取。