LLM2D

摘要

模仿学习（IL）在机器人控制等各种应用中展现出巨大潜力。然而，传统的 IL 方法通常被设计为仅学习一种特定类型的行为，因为演示通常对应于单个专家。在这项工作中，我们介绍了第一个用于质量多样性模仿学习（QD-IL）的通用框架，该框架使智能体能够从有限的演示中学习广泛的技能。我们的框架将质量多样性的原则与对抗性模仿学习（AIL）方法相结合，并有可能改进任何逆向强化学习（IRL）方法。从经验上看，我们的框架显著提高了 GAIL 和 VAIL 在从 Mujoco 环境中获得的具有挑战性的连续控制任务上的 QD 性能。此外，我们的方法甚至在最具挑战性的人形环境中实现了 2 倍的专家性能。