LLM2D

摘要

arXiv:2409.05358v2 展示类型: 替换交叉摘要：内在动机和奖励塑造通过添加伪奖励来引导强化学习（RL）代理，这可以导致有用的现象行为。然而，它们也可能促进不正当的利用，例如对有噪音的电视屏幕的固着。在这里，我们提供了一个理论模型，可以预测这些行为，并提供了广泛的条件，以限制不良影响。我们将所有伪奖励视为贝叶斯自适应马尔可夫决策过程（BAMDP）中的奖励塑造，该过程将MDP（马尔可夫决策过程）中的学习问题表述为代理知识上的MDP。最优探索最大化BAMDP状态价值，我们将其分解为获取的信息的价值和物理状态的先验价值。伪奖励通过奖励增加了这些价值组件的行为来引导RL代理，而当它们与实际价值不一致时，则妨碍探索。我们扩展了基于潜力的塑造理论，证明了BAMDP潜力基形成功能（BAMPFs）在元强化学习中免疫于奖励作弊（追求复合奖励的最大化而牺牲真正奖励），并展示了如何在伯努利臂域中通过BAMPF帮助元强化学习代理学习最优的RL算法。最后，我们证明了具有边界单调增加潜力的BAMPFs也能够在常规的RL设置中抵抗奖励作弊。我们展示了这种形式的原型或设计新的伪奖励项是直接的，并提供了在山车环境中的一种实证演示。