LLM2D

摘要

强化学习（RL）已被证明在机器人领域的多项任务中既有效又便捷。然而，它需要探索足够多的状态-动作对，其中许多可能是不安全或不重要的。例如，在没有保证在某个情节中能够达到某些期望状态的情况下，在线无模型学习可能会带来危险且效率低下。为了解决安全性问题，一种越来越常见的方法是增加一个屏蔽系统，将RL动作限制在安全动作集合内。然而，这类框架的一个难点是如何有效地将RL与屏蔽系统结合，以确保探索不会过度受限。本文提出了一种名为Critic As Lyapunov Function（CALF）的新型安全无模型RL代理，并展示了CALF如何以高效便捷的方式改进机器人控制基线，同时确保稳定目标达成的保障。后者通常是安全性的关键部分。通过CALF，所有状态-动作对仍可探索，同时正式保证了期望目标状态的达成。本文提供了形式化分析，展示了CALF的目标稳定保障特性，并通过一组真实世界和数值实验（使用非完整轮式移动机器人（WMR）TurtleBot3 Burger）证实了CALF在几集设置中相对于近端策略优化（PPO）等成熟RL代理以及修改版SARSA在总成本达成方面的优越性。