LLM2D

摘要

arXiv:2405.18180v2 Announce Type: replace 摘要：在许多真实场景中部署强化学习（RL）代理时，增强其在训练过程中安全探索的能力是一个关键挑战。当无法获得领域或任务的先验知识时，在未知的“黑盒”环境中训练RL代理更是增加了极大的安全风险。我们引入了ADVICE（自适应屏蔽与对比自编码器），这是一种新颖的后屏蔽技术，在训练过程中区分状态-动作对中的安全和不安全特征，并利用这些知识保护RL代理免于执行可能导致危险结果的动作。我们与最先进的安全RL探索技术的全面实验评估表明，ADVICE在训练过程中显著减少了安全违规行为（约50%），并在结果奖励方面具有竞争力。