摘要
arXiv:2411.06965v2 公告类型: 替换-交叉
摘要:从有限的演示中学习多样且高性能的行为是一项艰巨的挑战。传统的模仿学习方法通常无法完成这一任务,因为大多数方法都是为了学习一种特定的行为而设计的,即使有多个演示也是如此。因此,需要新的技术,即质量多样性模仿学习技术,以弥合质量多样性优化方法和模仿学习方法之间的差距,从而解决上述挑战。本文引入了基于Wasserstein自动编码器(WAE)的潜在对抗训练的质量多样性模仿学习(WQDIL),该方法具有两方面改进:1)通过基于Wasserstein自动编码器(WAE)的潜在对抗训练提高质量多样性设置中模仿学习的稳定性;2)使用条件奖励函数和单步存档探索奖励项来缓解行为过拟合问题。实验中,我们的方法显著优于最先进的模仿学习方法,在来自MuJoCo环境派生的具有挑战性的连续控制任务上达到或超越专家级别的质量多样性性能。