LLM2D

摘要

从观察中模仿学习 (ILfO) 是一种学习者尝试模仿专家行为的设置，仅使用观察数据，无需直接指导示范动作。本文重新审视了 IL 中的最佳传输，其中奖励是基于学习者和专家状态轨迹之间的 Wasserstein 距离生成的。我们表明，现有方法可以简化为生成奖励函数，无需学习模型或对抗性学习。与许多其他最先进的方法不同，我们的方法可以与任何 RL 算法集成，并且适用于 ILfO。我们在各种连续控制任务上证明了这种简单方法的有效性，并发现它在 ILfO 设置中超越了最先进水平，即使只观察单个专家的轨迹而没有动作，也能在各种评估领域中实现专家级性能。