LLM2D

摘要

arXiv:2110.15907v2 宣布类型：替换摘要：强化学习领域的一个关键挑战是在新情况下谨慎行事的代理行为开发。通常无法预料自主系统可能遇到的所有情况或何种行为能最好地避免不良结果。能学习谨慎行事的代理将通过自行发现何时以及如何谨慎行事来克服这一挑战。相比之下，当前的方法通常会将特定任务的安全信息或明确的谨慎行为嵌入系统中，这容易出错，并给实践者增加了额外的负担。在本文中，我们提出了一个逐步任务序列，在该序列中，谨慎行为逐渐变得不那么显而易见，同时也提出了一种算法，证明系统能够学习谨慎行事是可能的。我们算法的核心特征是，在没有特定任务安全信息的情况下，它会通过神经网络集成来表征奖励函数的不确定性，并利用这种不确定性来构建稳健的策略。具体而言，我们使用k-of-N反事实遗憾最小化（CFR）子模块，基于学习到的通过神经网络集成表示的奖励函数不确定性来构建稳健的策略。在我们的任务中，这些策略在没有任何特定任务安全调整的情况下表现出谨慎。