摘要
arXiv:2409.05358v2 展示类型: 替换交叉
摘要:内在动机和奖励塑造通过添加伪奖励来引导强化学习(RL)代理,这可以导致有用的现象行为。然而,它们也可能促进不正当的利用,例如对有噪音的电视屏幕的固着。在这里,我们提供了一个理论模型,可以预测这些行为,并提供了广泛的条件,以限制不良影响。我们将所有伪奖励视为贝叶斯自适应马尔可夫决策过程(BAMDP)中的奖励塑造,该过程将MDP(马尔可夫决策过程)中的学习问题表述为代理知识上的MDP。最优探索最大化BAMDP状态价值,我们将其分解为获取的信息的价值和物理状态的先验价值。伪奖励通过奖励增加了这些价值组件的行为来引导RL代理,而当它们与实际价值不一致时,则妨碍探索。我们扩展了基于潜力的塑造理论,证明了BAMDP潜力基形成功能(BAMPFs)在元强化学习中免疫于奖励作弊(追求复合奖励的最大化而牺牲真正奖励),并展示了如何在伯努利臂域中通过BAMPF帮助元强化学习代理学习最优的RL算法。最后,我们证明了具有边界单调增加潜力的BAMPFs也能够在常规的RL设置中抵抗奖励作弊。我们展示了这种形式的原型或设计新的伪奖励项是直接的,并提供了在山车环境中的一种实证演示。