LLM2D

摘要

arXiv:2405.16194v4 通知类型: replace-cross 摘要：模仿学习旨在通过观察专家演示来学习策略，而不依赖于环境提供的奖励信号。生成对抗模仿学习（GAIL）将模仿学习形式化为对抗学习，采用生成器策略学习模仿专家行为，并使用判别器区分专家演示和代理轨迹。尽管取得了令人鼓舞的结果，但GAIL训练通常脆弱且不稳定。受近期扩散模型在生成模型中的主导地位启发，我们提出了一种扩散奖励对抗模仿学习（DRAIL），将扩散模型融入GAIL，旨在为策略学习提供更稳健和平滑的奖励。具体来说，我们提出了一种扩散判别分类器来构建增强的判别器，并设计基于分类器输出的扩散奖励以供策略学习。我们在导航、操作和运动中进行了广泛实验，验证了DRAIL相比于之前的模仿学习方法的有效性。此外，额外的实验结果展示了DRAIL的泛化能力和数据效率。GAIL和DRAIL学习到的奖励函数可视化表明，DRAIL能够产生更为稳健和平滑的奖励。项目页面：https://nturobotlearninglab.github.io/DRAIL/