LLM2D

摘要

大多数具有正式遗憾保证的学习算法假设没有错误是不可弥补的，并且本质上依赖于尝试所有可能的行为。当某些错误是*灾难性的*，即不可弥补时，这种方法是有问题的。我们提出了一种在线学习问题，其目标是最大程度地减少灾难发生的可能性。具体来说，我们假设每一轮的回报代表了该轮避免灾难的可能性，并旨在最大化回报的乘积（避免灾难的总体可能性），同时允许对导师进行有限数量的查询。我们首先表明，一般而言，任何算法要么不断地查询导师，要么几乎肯定会导致灾难。然而，在导师策略类在标准在线学习模型中可学习的情况下，我们提供了一种算法，其遗憾和查询导师的速率都随着时间范围的增长而接近 0。从概念上讲，如果在没有灾难性风险的情况下可以学习策略类，那么如果代理可以寻求帮助，它就可以在存在灾难性风险的情况下学习。