摘要
arXiv:2503.07671v3 安全类型: replace-cross
摘要:在现实场景中,一个旨在最大化奖励的强化学习(RL)代理不仅要表现得安全,而且在训练期间也是如此。因此,近年来,安全强化学习(Safe RL)受到了广泛关注,其中代理的目标是在所有满足给定安全约束的策略中学习最优策略。然而,严格的安全保障通常通过基于线性规划的方法提供,因此具有有限的扩展性。在本文中,我们提出了一种新的可扩展方法,该方法在Markov决策过程(MDP)的安全动力学已知且安全被定义为未贴现概率避险特性的情况下,享有严格的正式保障。我们的方法基于MDP的状态扩充,并设计了一个限制可用动作的屏蔽。我们展示了我们的方法在代理在训练和测试期间保持安全方面提供了严格的正式安全保障。此外,我们通过实验评估证明了该方法在实践中是可行的。