LLM2D

摘要

arXiv:2504.03040v1 交叉公告类型摘要：安全强化学习（Safe RL）旨在训练一个强化学习（RL）代理，在遵守安全约束的情况下最大化其实时环境中的性能，因为超出安全违规限制可能会导致严重后果。在这篇论文中，我们提出了一种新颖的安全强化学习方法，称为安全调制策略优化（SMPO），通过安全调制奖励在标准策略优化框架内实现安全的策略函数学习。特别地，我们将安全违规成本视为与标准奖励并行的来自RL环境的反馈，并引入了一个Q成本函数作为安全评判者，以估计预期的未来的累计成本。然后，我们提出使用成本意识加权函数对奖励进行调制，该加权函数精心设计，基于安全评判者的估计确保安全限值，同时最大化预期奖励。策略函数和安全评判者通过在与环境进行在线交互时的梯度下降同时进行学习。我们使用多个RL环境进行了实验，实验结果表明，我们的方法在总体安全性能方面优于几种经典和最先进的比较方法。