LLM2D

摘要

最先进的强化学习方法有时会遇到不安全的情况。识别这些情况的发生对事后分析和部署都很有意义，因为在部署时，在需要帮助时向人类监督者求助可能是有利的。人们已经开发出一些方法来衡量不同时间点的关键程度，但由于缺乏真实情况，它们的准确性还没有得到很好的确立，而且它们的设计并非易于最终用户理解。因此，我们试图定义一个关键性框架，该框架既具有可量化的真实情况，又对用户具有明确的意义。我们将真实关键性定义为当代理连续执行 n 个随机动作偏离其策略时，奖励的预期下降。我们还引入了代理关键性的概念，这是一个低开销指标，与真实关键性具有统计上的单调关系。安全裕度使这些指标变得可解释，当定义为代理性能损失不会超过某个容忍度的随机动作数量时，其置信度很高。我们在几个环境-代理组合中展示了这种方法；对于 Atari Beamrider 环境中的 A3C 代理，最低 5% 的安全裕度包含 47% 的代理损失；也就是说，仅监督 5% 的决策可能会阻止大约一半的代理错误。这种关键性框架在这些决策做出之前就衡量了错误决策的潜在影响，从而允许更有效地调试和监督自主代理。