LLM2D

摘要

深度强化学习（DRL）策略对观测中的对抗性噪声高度敏感，这在安全关键场景中带来了重大风险。例如，如果自动驾驶汽车的交通标志感官输入被对手操控，可能会导致灾难性后果。此类情况下的核心挑战是，由于这些对抗性操作，环境的真实状态变得仅部分可观察。文献中迄今为止采用了两种主要策略；第一组方法侧重于增加附近状态（与真实状态接近的状态）共享相同鲁棒动作的可能性。第二组方法最大化对抗性扰动观测范围内最坏可能真实状态的价值。尽管这些方法提供了强大的抗攻击能力，但它们往往过于保守或不可推广。我们假设这些方法的不足源于它们未能明确考虑部分可观察性。通过做出直接考虑这种对真实状态的局部知识的决策，我们相信可以实现鲁棒性和性能之间的更好平衡，尤其是在对抗性设置中。为了实现这一点，我们引入了一个名为对抗性反事实误差 (ACoE) 的新目标，该目标定义在对潜在真实状态的信念上，并自然地平衡了价值优化和对抗性攻击的鲁棒性，以及一个理论上有根据的可扩展代理目标累积-ACoE (C-ACoE)。我们的实证评估表明，我们的方法在解决对抗性 RL 挑战方面显著优于当前最先进的方法，为在对抗性条件下更好地进行 DRL 提供了一个有希望的方向。