LLM2D

摘要

arXiv:2505.02228v1 宣布类型: cross 摘要：通过使智能体从专家演示中学习复杂行为， imitative learning (IL) 在机器人技术、自主驾驶和医疗保健等多个领域取得了显著的成功。然而，现有的 IL 方法在依赖于世界模型框架中的对抗性奖励或价值形式时，经常面临不稳定性挑战。在这项工作中，我们提出了一种新颖的在线模仿学习方法，通过基于随机网络蒸馏 (RND) 的奖励模型解决这些局限性，该模型用于密度估计。我们的奖励模型基于世界模型的潜在空间中专家分布和行为分布的联合估计。我们跨多种基准进行评估，包括 DMControl、Meta-World 和 ManiSkill2，展示了该方法在稳态性能方面的能力以及在运动和操作任务中达到专家级结果的能力。我们的方法在稳定性方面优于对抗性方法，同时保持专家级的表现。