LLM2D

摘要

arXiv:2412.15429v4 宣告类型: replace-cross 摘要：脱机安全强化学习（RL）已经成为一种有前途的方法，可以在不与环境进行具有风险的在线交互的情况下学习安全行为。大多数现有的脱机安全RL方法依赖于每一步的时间代价约束（源自全局代价约束），这可能导致过于保守的策略或违反安全约束。在本文中，我们提出了一种学习一种策略的方法，该策略能够生成理想的轨迹并避免不理想的轨迹。具体来说，我们首先将预先收集的状态-动作轨迹数据集划分为理想的和不理想的子集。直观地讲，理想的集合包含高奖励和安全的轨迹，而不理想的集合包含不安全的轨迹和低奖励的安全轨迹。其次，我们学习一种策略，该策略能够生成理想的轨迹并避免不理想的轨迹，其中（不）理想的评分是由从理想的和不理想的轨迹数据集中学习的分类器提供的。这种方法绕过了现有方法中使用的最小-最大目标函数的计算复杂性和稳定性问题。理论上，我们还展示了我们的方法与涉及人类反馈的现有学习范式的紧密联系。最后，我们使用DSRL基准对脱机安全RL方法进行了广泛评估。实证上，我们的方法优于竞争性的基线，实现更高的奖励并在一系列基准任务中更好地满足约束条件。