LLM2D
在线学习中通过寻求帮助避免灾难
Avoiding Catastrophe in Online Learning by Asking for Help
作者: Benjamin Plaut, Hanlin Zhu, Stuart Russell
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2402.08062v3

摘要

大多数具有正式遗憾保证的学习算法假设没有错误是不可弥补的,并且本质上依赖于尝试所有可能的行为。当某些错误是*灾难性的*,即不可弥补时,这种方法是有问题的。我们提出了一种在线学习问题,其目标是最大程度地减少灾难发生的可能性。具体来说,我们假设每一轮的回报代表了该轮避免灾难的可能性,并旨在最大化回报的乘积(避免灾难的总体可能性),同时允许对导师进行有限数量的查询。我们首先表明,一般而言,任何算法要么不断地查询导师,要么几乎肯定会导致灾难。然而,在导师策略类在标准在线学习模型中可学习的情况下,我们提供了一种算法,其遗憾和查询导师的速率都随着时间范围的增长而接近 0。从概念上讲,如果在没有灾难性风险的情况下可以学习策略类,那么如果代理可以寻求帮助,它就可以在存在灾难性风险的情况下学习。