LLM2D

摘要

由于试错的本质，将强化学习算法应用于安全关键的现实世界应用（如自动驾驶、人机交互、机器人操作等）通常具有挑战性，因为这些应用无法容忍错误。近年来，安全强化学习（即约束强化学习）在文献中迅速兴起，其中智能体在满足约束条件的同时探索环境。由于算法和任务的多样性，比较现有的安全强化学习算法仍然很困难。为了填补这一空白，我们引入了 GUARD，一个通用的统一安全强化学习开发基准。与现有的基准相比，GUARD 具有以下几个优势。首先，GUARD 是一个通用的基准，包含各种强化学习智能体、任务和安全约束规范。其次，GUARD 全面涵盖了最先进的安全强化学习算法，并提供了自包含的实现。第三，GUARD 在任务和算法方面高度可定制。我们使用 GUARD 在各种任务设置中对最先进的安全强化学习算法进行了比较，并建立了未来工作可以借鉴的基线。