摘要
arXiv:2505.08179v1 声明类型: cross
摘要: 无监督强化学习(OSRL)从预先收集的数据集中推导出满足约束的策略,为在机器人等关键安全领域部署RL提供了有希望的道路。然而,现有方法大多仅强调短期安全性,忽视了长期考虑。因此,它们可能会违反安全约束,在在线部署过程中无法确保持续的安全保护。此外,所学习的策略经常难以处理未出现在离线数据集中或处于离群值(out-of-distribution, OOD)状态和动作,并且样本效率有限。为了解决这些挑战,我们提出了一种新的框架:基于CVAE悲观估计的可实现性感知的无监督安全强化学习(FASP)。首先,我们采用哈密尔顿-雅可比(H-J)可达性分析生成可靠的安全部署标签,作为训练条件变分自编码器(CVAE)和安全分类器的监督信号。这种方法不仅保证了高的采样效率,还提供了严格的长期安全保证。此外,我们利用悲观估计方法估计奖励和成本的Q值,以减轻由OOD动作引起的外推误差,并对不安全的动作进行惩罚,使智能体能够主动避免高风险行为。此外,我们从理论上证明了这种悲观估计的有效性。在DSRL基准实验中,FASP算法在多个实验任务中表现出竞争力,尤其是在安全性方面超越了最先进的算法。