LLM2D
扩散-奖励对抗imitation学习
Diffusion-Reward Adversarial Imitation Learning
作者: Chun-Mao Lai, Hsiang-Chun Wang, Ping-Chun Hsieh, Yu-Chiang Frank Wang, Min-Hung Chen, Shao-Hua Sun
发布日期: 11/27/2024
arXiv ID: oai:arXiv.org:2405.16194v4

摘要

arXiv:2405.16194v4 通知类型: replace-cross 摘要:模仿学习旨在通过观察专家演示来学习策略,而不依赖于环境提供的奖励信号。生成对抗模仿学习(GAIL)将模仿学习形式化为对抗学习,采用生成器策略学习模仿专家行为,并使用判别器区分专家演示和代理轨迹。尽管取得了令人鼓舞的结果,但GAIL训练通常脆弱且不稳定。受近期扩散模型在生成模型中的主导地位启发,我们提出了一种扩散奖励对抗模仿学习(DRAIL),将扩散模型融入GAIL,旨在为策略学习提供更稳健和平滑的奖励。具体来说,我们提出了一种扩散判别分类器来构建增强的判别器,并设计基于分类器输出的扩散奖励以供策略学习。我们在导航、操作和运动中进行了广泛实验,验证了DRAIL相比于之前的模仿学习方法的有效性。此外,额外的实验结果展示了DRAIL的泛化能力和数据效率。GAIL和DRAIL学习到的奖励函数可视化表明,DRAIL能够产生更为稳健和平滑的奖励。项目页面:https://nturobotlearninglab.github.io/DRAIL/