LLM2D
基于最优传输的观察模仿学习
Imitation Learning from Observation through Optimal Transport
作者: Wei-Di Chang, Scott Fujimoto, David Meger, Gregory Dudek
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2310.01632v2

摘要

从观察中模仿学习 (ILfO) 是一种学习者尝试模仿专家行为的设置,仅使用观察数据,无需直接指导示范动作。本文重新审视了 IL 中的最佳传输,其中奖励是基于学习者和专家状态轨迹之间的 Wasserstein 距离生成的。我们表明,现有方法可以简化为生成奖励函数,无需学习模型或对抗性学习。与许多其他最先进的方法不同,我们的方法可以与任何 RL 算法集成,并且适用于 ILfO。我们在各种连续控制任务上证明了这种简单方法的有效性,并发现它在 ILfO 设置中超越了最先进水平,即使只观察单个专家的轨迹而没有动作,也能在各种评估领域中实现专家级性能。