LLM2D
在黑盒环境中通过自适应屏蔽进行安全强化学习
Safe Reinforcement Learning in Black-Box Environments via Adaptive Shielding
作者: Daniel Bethell, Simos Gerasimou, Radu Calinescu, Calum Imrie
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2405.18180v2

摘要

arXiv:2405.18180v2 Announce Type: replace 摘要:在许多真实场景中部署强化学习(RL)代理时,增强其在训练过程中安全探索的能力是一个关键挑战。当无法获得领域或任务的先验知识时,在未知的“黑盒”环境中训练RL代理更是增加了极大的安全风险。我们引入了ADVICE(自适应屏蔽与对比自编码器),这是一种新颖的后屏蔽技术,在训练过程中区分状态-动作对中的安全和不安全特征,并利用这些知识保护RL代理免于执行可能导致危险结果的动作。我们与最先进的安全RL探索技术的全面实验评估表明,ADVICE在训练过程中显著减少了安全违规行为(约50%),并在结果奖励方面具有竞争力。