LLM2D

摘要

本文探讨了强化学习中延迟奖励这一难题。尽管近端策略优化（PPO）已成为一种领先的策略梯度方法，但在延迟奖励的情况下，其性能可能会下降。我们对PPO进行了两项关键改进：一种混合策略架构，它将离线策略（基于专家演示训练）与在线PPO策略相结合；以及一种使用时间窗口时序逻辑（TWTL）的奖励塑造机制。混合架构在整个训练过程中利用离线数据，同时保持PPO的理论保证。基于信任区域策略优化（TRPO）的单调改进框架，我们证明了我们的方法能够保证优于离线策略和之前的迭代，性能差距以$(2\varsigma\gamma\alpha^2)/(1-\gamma)^2$为界，其中$\alpha$是混合参数，$\gamma$是折扣因子，$\varsigma$是预期优势的上界。此外，我们证明了我们基于TWTL的奖励塑造保留了原始问题的最优策略。TWTL能够将时间目标正式转换为引导学习的即时反馈信号。我们通过在倒立摆和月球着陆器环境中进行的大量实验验证了该方法的有效性，结果表明，与标准PPO和仅离线方法相比，该方法在学习速度和最终性能方面均有所提高。