LLM2D
强化学习的临界性和安全裕度
Criticality and Safety Margins for Reinforcement Learning
作者: Alexander Grushin, Walt Woods, Alvaro Velasquez, Simon Khan
发布日期: 9/30/2024
arXiv ID: oai:arXiv.org:2409.18289v1

摘要

最先进的强化学习方法有时会遇到不安全的情况。识别这些情况的发生对事后分析和部署都很有意义,因为在部署时,在需要帮助时向人类监督者求助可能是有利的。人们已经开发出一些方法来衡量不同时间点的关键程度,但由于缺乏真实情况,它们的准确性还没有得到很好的确立,而且它们的设计并非易于最终用户理解。因此,我们试图定义一个关键性框架,该框架既具有可量化的真实情况,又对用户具有明确的意义。我们将真实关键性定义为当代理连续执行 n 个随机动作偏离其策略时,奖励的预期下降。我们还引入了代理关键性的概念,这是一个低开销指标,与真实关键性具有统计上的单调关系。安全裕度使这些指标变得可解释,当定义为代理性能损失不会超过某个容忍度的随机动作数量时,其置信度很高。我们在几个环境-代理组合中展示了这种方法;对于 Atari Beamrider 环境中的 A3C 代理,最低 5% 的安全裕度包含 47% 的代理损失;也就是说,仅监督 5% 的决策可能会阻止大约一半的代理错误。这种关键性框架在这些决策做出之前就衡量了错误决策的潜在影响,从而允许更有效地调试和监督自主代理。