摘要
任何自主控制器在某些情况下都是不安全的。定量识别这些不安全情况即将发生的能力对于及时进行人工监督至关重要,例如在货运运输应用中。在这项工作中,我们证明了代理情况的真实临界性可以稳健地定义为给定一定数量的随机动作后奖励的平均减少量。可以将实时可计算的代理临界性指标(即,无需实际模拟随机动作的影响)与真实临界性进行比较,我们展示了如何利用这些代理指标生成安全裕度,这直接将潜在错误动作的后果与预期的整体性能损失联系起来。我们在 Atari 环境中评估了来自 APE-X 和 A3C 的学习策略,并演示了安全裕度如何随着代理接近故障状态而减小。将安全裕度集成到用于监控已部署代理的程序中,允许实时识别潜在的灾难性情况。