摘要
近年来研究表明,在训练中表现良好的强化学习 (RL) 智能体在部署时往往缺乏对抗性扰动的鲁棒性。这突出了在将智能体部署到现实世界之前构建鲁棒智能体的重要性。大多数先前的工作集中于开发基于鲁棒训练的程序来解决这个问题,包括增强深度神经网络组件本身的鲁棒性或对智能体进行对抗性训练以应对强攻击。在本工作中,我们研究了基于输入变换的 RL 防御机制。具体而言,我们提出使用矢量量化 (VQ) 的变体作为输入观测的变换,然后利用该变换来缩小测试期间对抗性攻击的空间,从而使变换后的观测受到攻击的影响较小。我们的方法计算效率高,并能与对抗性训练无缝集成,进一步增强 RL 智能体对抗对抗性攻击的鲁棒性。通过在多个环境中进行大量实验,我们证明将 VQ 作为输入变换可以有效地防御针对智能体观测的对抗性攻击。