摘要
arXiv:2409.13867v1 公告类型: 交叉 摘要: 尽管鲁棒最优控制理论提供了一个严格的框架来计算可证明安全的机器人控制策略,但它难以扩展到高维问题,导致深度学习在机器人安全合成中的应用增加。不幸的是,现有的神经安全合成方法往往缺乏收敛性保证和解决方案的可解释性。本文提出了一种名为隐式评论家引导的极大极小演员堆叠伯格(MAGICS)的新型对抗强化学习(RL)算法,该算法保证了局部收敛到极大极小均衡解。在此基础上,我们进一步为基于深度RL的机器人安全合成算法提供了局部收敛性保证。通过在OpenAI Gym环境中的仿真研究和与36维四足机器人的硬件实验,我们展示了MAGICS能够生成优于现有最先进神经安全合成方法的鲁棒控制策略。