LLM2D

摘要

arXiv:2412.15429v5 安全公告类型: 替换交叉摘要：离线安全强化学习（RL）已经成为了在不进行危险的在线环境交互的情况下学习安全行为的一种有前途的方法。目前大多数离线安全RL的方法依赖于每个时间步的成本约束（这些成本约束是从全局成本约束中推导出来的），这可能会导致过于保守的策略或者安全约束的违反。在本文中，我们提出了一种学习策略的方法，该策略可以生成理想的轨迹并避免不理想的轨迹。具体来说，我们首先将预先收集的状态-动作轨迹数据集划分为理想的和不理想的子集。直观地说，理想的子集包含高奖励和安全的轨迹，而不理想的子集则包含不安全的轨迹和低奖励但安全的轨迹。其次，我们学习一个策略，该策略生成理想的轨迹并避免不理想的轨迹，其中（不）理想的分数是通过从理想的和不理想的轨迹数据集中学习的分类器提供的。这种方法避开了现有方法中采用的最小-最大目标所带来的计算复杂性和稳定性问题。理论上，我们也展示了我们方法与现有涉及人类反馈的学习范式的紧密联系。最后，我们在DSRL基准测试中全面评估了我们的方法。实证结果表明，我们的方法在多种基准测试任务中优于竞争性的基线方法，实现了更高的奖励和更好的约束满足。