摘要
由于试错的本质,将强化学习算法应用于安全关键的现实世界应用(如自动驾驶、人机交互、机器人操作等)通常具有挑战性,因为这些应用无法容忍错误。近年来,安全强化学习(即约束强化学习)在文献中迅速兴起,其中智能体在满足约束条件的同时探索环境。由于算法和任务的多样性,比较现有的安全强化学习算法仍然很困难。为了填补这一空白,我们引入了 GUARD,一个通用的统一安全强化学习开发基准。与现有的基准相比,GUARD 具有以下几个优势。首先,GUARD 是一个通用的基准,包含各种强化学习智能体、任务和安全约束规范。其次,GUARD 全面涵盖了最先进的安全强化学习算法,并提供了自包含的实现。第三,GUARD 在任务和算法方面高度可定制。我们使用 GUARD 在各种任务设置中对最先进的安全强化学习算法进行了比较,并建立了未来工作可以借鉴的基线。