摘要
从观察中模仿学习 (ILfO) 是一种学习者尝试模仿专家行为的设置,仅使用观察数据,无需直接指导示范动作。本文重新审视了 IL 中的最佳传输,其中奖励是基于学习者和专家状态轨迹之间的 Wasserstein 距离生成的。我们表明,现有方法可以简化为生成奖励函数,无需学习模型或对抗性学习。与许多其他最先进的方法不同,我们的方法可以与任何 RL 算法集成,并且适用于 ILfO。我们在各种连续控制任务上证明了这种简单方法的有效性,并发现它在 ILfO 设置中超越了最先进水平,即使只观察单个专家的轨迹而没有动作,也能在各种评估领域中实现专家级性能。