LLM2D
请求帮助能够在不牺牲有效性的情况下提供安全保证
Asking for Help Enables Safety Guarantees Without Sacrificing Effectiveness
作者: Benjamin Plaut, Juan Li\'evano-Karim, Stuart Russell
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14043v1

摘要

arXiv:2502.14043v1 宣告类型: cross 摘要: 大多数具有后悔保证的强化学习算法依赖于一个关键假设:所有错误都是可恢复的。Plaut等人的近期工作摒弃了这一假设,并提出了通过求助来避免“灾难”(即不可恢复的错误)的算法。然而,他们仅提供了安全性保证,并未考虑奖励最大化。我们证明,在他们设定的任何情况下,避免灾难的任何算法都可在任何马尔可夫决策过程(MDP)中保证高奖励(即亚线性后悔),包括具有不可逆转成本的MDP。这构成了对通用MDP的第一个无后悔保证。更广泛地说,我们的结果可能是首个正式证明,在未知、无限且高风险的环境中,一个代理能够获得高奖励并变得自给自足,同时避免灾难且无需重置的正式证明。