摘要
arXiv:2504.12557v1 安全类型: cross
摘要: 在安全强化学习(RL)中,辅助安全成本用于使智能体趋向于安全的决策。实践中,安全约束,包括成本函数和预算,通常是未知的或难以指定的,因为这需要预见到所有可能的不安全行为。因此,我们考虑了一种一般性的情况,其中真正的安全定义是未知的,并且必须从稀疏标注的数据中学习。我们的主要贡献在于:首先,我们设计了一个安全模型,用于使用多样轨迹及其相应的二元安全标签(即,轨迹是否安全/不安全)对每个决策步骤的影响进行全面的安全性评估。其次,我们展示了我们安全模型的架构,以证明其能够为每个时间步单独学习一个安全得分的能力。第三,我们使用所提出的安全模型重述了安全RL问题,并推导出一种有效的算法来优化一个安全且有奖励的策略。最后,我们的实验证据证实了我们所发现的内容,并表明这种方法在满足未知的安全定义方面是有效的,并且可以扩展到各种连续控制任务中。