摘要
arXiv:2501.13011v2 宣告类型: replace-cross
摘要:未来的高级AI系统可能通过强化学习(RL)学会复杂的策略,人类无法充分理解这些策略,从而无法安全评估。我们提出了一种训练方法,该方法避免了代理学习具有高奖励但人类无法察觉到的不希望的多步计划(多步“奖励欺诈”)。该方法名为即时优化与前瞻批准(MONA),通过结合短视优化和远视奖励来实现。我们证明,即使在无法检测到奖励欺诈的情况下,MONA也可以防止普通RL引起的多步奖励欺诈,而无需提供任何普通RL无法访问的额外信息。我们通过三个不同的设置来实证研究MONA,这些设置模型了不同的对齐失效模式,包括具有LLM代表代委监督和编码推理的两步环境,以及具有更长时间 horizons 的格子世界环境,代表传感器篡改。