摘要
arXiv:2409.13867v2 Announce Type: replace-cross
摘要:虽然鲁棒最优控制理论为设计可证明安全的机器人控制策略提供了严格的框架,但在处理高维问题时却难以扩展,因此增加了对深度学习在可处理性合成机器人安全性中的使用。不幸的是,现有的神经网络安全性合成方法通常缺乏收敛保证和解决方案的可解释性。在本文中,我们提出了最小极大演员由隐式批评引导的斯泰克尔伯格(MAGICS)——一种新颖的对抗强化学习(RL)算法,该算法可保证在最小极大均衡解附近的局部收敛。然后,基于此方法,我们为一种通用的基于深度强化学习的机器人安全性合成算法提供了局部收敛性保证。通过在OpenAI Gym环境中进行的仿真研究以及与36维四足机器人的硬件实验,我们展示了MAGICS能够产生优于最先进的神经网络安全性合成方法的鲁棒控制策略。