LLM2D

摘要

模仿学习旨在通过观察专家演示来学习策略，而无需访问环境中的奖励信号。生成对抗模仿学习 (GAIL) 将模仿学习表述为对抗性学习，采用生成器策略学习来模仿专家行为，并采用鉴别器学习来区分专家演示和代理轨迹。尽管 GAIL 取得了令人鼓舞的结果，但其训练通常很脆弱且不稳定。受扩散模型在生成式建模中近期主导地位的启发，我们提出了扩散奖励对抗模仿学习 (DRAIL)，它将扩散模型集成到 GAIL 中，旨在为策略学习提供更稳健、更平滑的奖励。具体来说，我们提出了一种扩散鉴别分类器来构建增强型鉴别器，并根据分类器的输出设计扩散奖励用于策略学习。我们在导航、操作和运动中进行了大量实验，验证了 DRAIL 与先前模仿学习方法相比的有效性。此外，额外的实验结果证明了 DRAIL 的泛化能力和数据效率。GAIL 和 DRAIL 的可视化学习奖励函数表明，DRAIL 可以产生更稳健、更平滑的奖励。项目页面：https://nturobotlearninglab.github.io/DRAIL/