摘要
arXiv:2405.16194v4 通知类型: replace-cross
摘要:模仿学习旨在通过观察专家演示来学习策略,而不依赖于环境提供的奖励信号。生成对抗模仿学习(GAIL)将模仿学习形式化为对抗学习,采用生成器策略学习模仿专家行为,并使用判别器区分专家演示和代理轨迹。尽管取得了令人鼓舞的结果,但GAIL训练通常脆弱且不稳定。受近期扩散模型在生成模型中的主导地位启发,我们提出了一种扩散奖励对抗模仿学习(DRAIL),将扩散模型融入GAIL,旨在为策略学习提供更稳健和平滑的奖励。具体来说,我们提出了一种扩散判别分类器来构建增强的判别器,并设计基于分类器输出的扩散奖励以供策略学习。我们在导航、操作和运动中进行了广泛实验,验证了DRAIL相比于之前的模仿学习方法的有效性。此外,额外的实验结果展示了DRAIL的泛化能力和数据效率。GAIL和DRAIL学习到的奖励函数可视化表明,DRAIL能够产生更为稳健和平滑的奖励。项目页面:https://nturobotlearninglab.github.io/DRAIL/