摘要
深度强化学习(DRL)策略对观测中的对抗性噪声高度敏感,这在安全关键场景中带来了重大风险。例如,如果自动驾驶汽车的交通标志感官输入被对手操控,可能会导致灾难性后果。此类情况下的核心挑战是,由于这些对抗性操作,环境的真实状态变得仅部分可观察。文献中迄今为止采用了两种主要策略;第一组方法侧重于增加附近状态(与真实状态接近的状态)共享相同鲁棒动作的可能性。第二组方法最大化对抗性扰动观测范围内最坏可能真实状态的价值。尽管这些方法提供了强大的抗攻击能力,但它们往往过于保守或不可推广。我们假设这些方法的不足源于它们未能明确考虑部分可观察性。通过做出直接考虑这种对真实状态的局部知识的决策,我们相信可以实现鲁棒性和性能之间的更好平衡,尤其是在对抗性设置中。为了实现这一点,我们引入了一个名为对抗性反事实误差 (ACoE) 的新目标,该目标定义在对潜在真实状态的信念上,并自然地平衡了价值优化和对抗性攻击的鲁棒性,以及一个理论上有根据的可扩展代理目标累积-ACoE (C-ACoE)。我们的实证评估表明,我们的方法在解决对抗性 RL 挑战方面显著优于当前最先进的方法,为在对抗性条件下更好地进行 DRL 提供了一个有希望的方向。