摘要
模仿学习(IL)在机器人控制等各种应用中展现出巨大潜力。然而,传统的 IL 方法通常被设计为仅学习一种特定类型的行为,因为演示通常对应于单个专家。在这项工作中,我们介绍了第一个用于质量多样性模仿学习(QD-IL)的通用框架,该框架使智能体能够从有限的演示中学习广泛的技能。我们的框架将质量多样性的原则与对抗性模仿学习(AIL)方法相结合,并有可能改进任何逆向强化学习(IRL)方法。从经验上看,我们的框架显著提高了 GAIL 和 VAIL 在从 Mujoco 环境中获得的具有挑战性的连续控制任务上的 QD 性能。此外,我们的方法甚至在最具挑战性的人形环境中实现了 2 倍的专家性能。