LLM2D
逆强化学习的有效地平线研究
On the Effective Horizon of Inverse Reinforcement Learning
作者: Yiqing Xu, Finale Doshi-Velez, David Hsu
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2307.06541v3

摘要

arXiv:2307.06541v3 宣告类型: replace-cross 摘要:逆增强学习(IRL)算法通常依赖于(前向)增强学习或规划,在给定的时间范围内计算一个近似最优策略,以一个假设的奖赏函数为基础;然后将这个策略与专家演示进行匹配。时间范围在确定奖赏估计的准确性和IRL算法的计算效率方面起着关键作用。有趣的是,一个比真实值短的有效时间范围往往能更快地产生更好的结果。本文正式分析了这一现象,并提供了一个解释:时间范围控制了诱导策略类的复杂性,并在数据有限的情况下减轻过拟合。该分析为IRL有效时间范围的原理性选择提供了一条指南。它还促使我们重新审视经典的IRL形式化方法:与其使用给定的时间范围单独学习奖赏,不如联合学习奖赏和有效时间范围更为自然。为了验证我们的发现,我们实现了一个交叉验证扩展,实验结果支持了理论分析。该项目页面和代码均已公开。