LLM2D
TraCeS: 基于轨迹的安全反馈稀疏信用分配
TraCeS: Trajectory Based Credit Assignment From Sparse Safety Feedback
作者: Siow Meng Low, Akshat Kumar
发布日期: 4/24/2025
arXiv ID: oai:arXiv.org:2504.12557v2

摘要

arXiv:2504.12557v2 安全公告类型: replace-cross 摘要:在安全强化学习(RL)中,辅助安全成本被用来使智能体遵循安全的决策。在实践中,安全约束,包括成本函数和预算,往往是未知的或难以指定的,因为这需要预见所有可能的不安全行为。因此,我们处理了一种通用的情况,其中真正的安全定义是未知的,并且必须从稀疏标注的数据中学习。我们的主要贡献是:首先,我们设计了一个安全模型,该模型能够使用多样化的轨迹及其相应的二元安全标签(即,对应的轨迹是否安全/不安全)来对每个决策步骤的影响进行责任分配,以估计其对整体安全的影响。其次,我们展示了我们安全模型的架构,以说明其能够为每个时间步学习一个独立的安全评分的能力。第三,我们使用提出的安全模型重新定义了安全 RL 问题,并推导出一种有效的算法来优化一个安全且具有奖励性的策略。最后,我们的实证结果验证了我们的发现,并表明这种方法在满足未知安全定义以及在各种连续控制任务中可扩展方面是有效的。