LLM2D

摘要

arXiv:2307.06541v3 宣告类型: replace-cross 摘要：逆增强学习（IRL）算法通常依赖于（前向）增强学习或规划，在给定的时间范围内计算一个近似最优策略，以一个假设的奖赏函数为基础；然后将这个策略与专家演示进行匹配。时间范围在确定奖赏估计的准确性和IRL算法的计算效率方面起着关键作用。有趣的是，一个比真实值短的有效时间范围往往能更快地产生更好的结果。本文正式分析了这一现象，并提供了一个解释：时间范围控制了诱导策略类的复杂性，并在数据有限的情况下减轻过拟合。该分析为IRL有效时间范围的原理性选择提供了一条指南。它还促使我们重新审视经典的IRL形式化方法：与其使用给定的时间范围单独学习奖赏，不如联合学习奖赏和有效时间范围更为自然。为了验证我们的发现，我们实现了一个交叉验证扩展，实验结果支持了理论分析。该项目页面和代码均已公开。