LLM2D

摘要

arXiv:2505.08179v1 声明类型: cross 摘要: 无监督强化学习(OSRL)从预先收集的数据集中推导出满足约束的策略，为在机器人等关键安全领域部署RL提供了有希望的道路。然而，现有方法大多仅强调短期安全性，忽视了长期考虑。因此，它们可能会违反安全约束，在在线部署过程中无法确保持续的安全保护。此外，所学习的策略经常难以处理未出现在离线数据集中或处于离群值(out-of-distribution, OOD)状态和动作，并且样本效率有限。为了解决这些挑战，我们提出了一种新的框架：基于CVAE悲观估计的可实现性感知的无监督安全强化学习(FASP)。首先，我们采用哈密尔顿-雅可比(H-J)可达性分析生成可靠的安全部署标签，作为训练条件变分自编码器(CVAE)和安全分类器的监督信号。这种方法不仅保证了高的采样效率，还提供了严格的长期安全保证。此外，我们利用悲观估计方法估计奖励和成本的Q值，以减轻由OOD动作引起的外推误差，并对不安全的动作进行惩罚，使智能体能够主动避免高风险行为。此外，我们从理论上证明了这种悲观估计的有效性。在DSRL基准实验中，FASP算法在多个实验任务中表现出竞争力，尤其是在安全性方面超越了最先进的算法。