LLM2D

摘要

arXiv:2505.01619v1 安全类型：交叉摘要：安全强化学习（Safe RL）旨在通过与可能因不当行为产生高成本或导致严重后果的真实世界环境进行交互来保证安全性。在本文中，我们提出了一种新的安全性技能规划（SSkP）方法，通过利用辅助的离线演示数据来增强有效的安全 RL。SSkP 包含两阶段过程。首先，我们使用部分监督学习（PU学习）从离线演示数据中学习一个技能风险预测器。然后，基于所学的技能风险预测器，我们开发了一个新颖的风险规划过程，通过与在线 RL 环境的交互来增强在线安全 RL，并高效地学习一个风险厌恶的安全策略，同时不断适应环境。我们分别在几个基准机械臂仿真环境中进行了实验。实验结果表明，所提出的方法在性能上始终优于此前最先进的安全 RL 方法。