LLM2D

摘要

arXiv:2504.12557v1 安全类型: cross 摘要: 在安全强化学习（RL）中，辅助安全成本用于使智能体趋向于安全的决策。实践中，安全约束，包括成本函数和预算，通常是未知的或难以指定的，因为这需要预见到所有可能的不安全行为。因此，我们考虑了一种一般性的情况，其中真正的安全定义是未知的，并且必须从稀疏标注的数据中学习。我们的主要贡献在于：首先，我们设计了一个安全模型，用于使用多样轨迹及其相应的二元安全标签（即，轨迹是否安全/不安全）对每个决策步骤的影响进行全面的安全性评估。其次，我们展示了我们安全模型的架构，以证明其能够为每个时间步单独学习一个安全得分的能力。第三，我们使用所提出的安全模型重述了安全RL问题，并推导出一种有效的算法来优化一个安全且有奖励的策略。最后，我们的实验证据证实了我们所发现的内容，并表明这种方法在满足未知的安全定义方面是有效的，并且可以扩展到各种连续控制任务中。