LLM2D
扩散奖励对抗模仿学习
Diffusion-Reward Adversarial Imitation Learning
作者: Chun-Mao Lai, Hsiang-Chun Wang, Ping-Chun Hsieh, Yu-Chiang Frank Wang, Min-Hung Chen, Shao-Hua Sun
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2405.16194v2

摘要

模仿学习旨在通过观察专家演示来学习策略,而无需访问环境中的奖励信号。生成对抗模仿学习 (GAIL) 将模仿学习表述为对抗性学习,采用生成器策略学习来模仿专家行为,并采用鉴别器学习来区分专家演示和代理轨迹。尽管 GAIL 取得了令人鼓舞的结果,但其训练通常很脆弱且不稳定。受扩散模型在生成式建模中近期主导地位的启发,我们提出了扩散奖励对抗模仿学习 (DRAIL),它将扩散模型集成到 GAIL 中,旨在为策略学习提供更稳健、更平滑的奖励。具体来说,我们提出了一种扩散鉴别分类器来构建增强型鉴别器,并根据分类器的输出设计扩散奖励用于策略学习。我们在导航、操作和运动中进行了大量实验,验证了 DRAIL 与先前模仿学习方法相比的有效性。此外,额外的实验结果证明了 DRAIL 的泛化能力和数据效率。GAIL 和 DRAIL 的可视化学习奖励函数表明,DRAIL 可以产生更稳健、更平滑的奖励。项目页面:https://nturobotlearninglab.github.io/DRAIL/