LLM2D

摘要

arXiv:2502.14043v1 宣告类型: cross 摘要: 大多数具有后悔保证的强化学习算法依赖于一个关键假设：所有错误都是可恢复的。Plaut等人的近期工作摒弃了这一假设，并提出了通过求助来避免“灾难”（即不可恢复的错误）的算法。然而，他们仅提供了安全性保证，并未考虑奖励最大化。我们证明，在他们设定的任何情况下，避免灾难的任何算法都可在任何马尔可夫决策过程（MDP）中保证高奖励（即亚线性后悔），包括具有不可逆转成本的MDP。这构成了对通用MDP的第一个无后悔保证。更广泛地说，我们的结果可能是首个正式证明，在未知、无限且高风险的环境中，一个代理能够获得高奖励并变得自给自足，同时避免灾难且无需重置的正式证明。