摘要
强化学习(RL)已被证明在机器人领域的多项任务中既有效又便捷。然而,它需要探索足够多的状态-动作对,其中许多可能是不安全或不重要的。例如,在没有保证在某个情节中能够达到某些期望状态的情况下,在线无模型学习可能会带来危险且效率低下。为了解决安全性问题,一种越来越常见的方法是增加一个屏蔽系统,将RL动作限制在安全动作集合内。然而,这类框架的一个难点是如何有效地将RL与屏蔽系统结合,以确保探索不会过度受限。本文提出了一种名为Critic As Lyapunov Function(CALF)的新型安全无模型RL代理,并展示了CALF如何以高效便捷的方式改进机器人控制基线,同时确保稳定目标达成的保障。后者通常是安全性的关键部分。通过CALF,所有状态-动作对仍可探索,同时正式保证了期望目标状态的达成。本文提供了形式化分析,展示了CALF的目标稳定保障特性,并通过一组真实世界和数值实验(使用非完整轮式移动机器人(WMR)TurtleBot3 Burger)证实了CALF在几集设置中相对于近端策略优化(PPO)等成熟RL代理以及修改版SARSA在总成本达成方面的优越性。