摘要
深度强化学习智能体在广泛的模拟控制任务中取得了最先进的性能。然而,其在现实世界问题的成功应用仍然有限。这种差异的一个原因是学习到的策略对观测噪声或对抗性攻击不鲁棒。本文研究了深度强化学习策略在确定性连续控制任务中对单个小状态扰动的鲁棒性。我们证明了强化学习策略可能是确定性混沌的,因为系统状态的微小扰动会对后续状态和奖励轨迹产生重大影响。这种不稳定的非线性行为有两个后果:首先,传感器读数的不准确或对抗性攻击会导致性能显著下降;其次,即使在奖励方面表现出鲁棒性能的策略也可能在实践中表现出不可预测的行为。强化学习策略中混沌的这两个方面极大地限制了深度强化学习在现实世界问题的应用。为了解决这个问题,我们对成功的 Dreamer V3 架构进行了改进,实现了最大李雅普诺夫指数正则化。这种新方法减少了混沌状态动力学,使学习到的策略更能抵抗传感器噪声或对抗性攻击,从而提高了深度强化学习适用于现实世界应用的适用性。