LLM2D

摘要

本文旨在解决对抗性逆向强化学习 (AIRL) 方法在随机环境中的局限性，在随机环境中，理论结果无法成立，性能会下降。为了解决这个问题，我们提出了一种新方法，该方法将动力学信息注入奖励塑造，并为随机环境中的诱导最优策略提供了理论保证。结合我们新颖的模型增强奖励，我们提出了一个新的模型增强 AIRL 框架，该框架将转移模型估计直接集成到奖励塑造中。此外，我们对我们方法的奖励误差界限和性能差异界限进行了全面的理论分析。MuJoCo 基准测试中的实验结果表明，与现有的基线相比，我们的方法可以在随机环境中实现卓越的性能，在确定性环境中实现具有竞争力的性能，并且样本效率显着提高。