摘要
针对操控任务的终身模仿学习,由于增量学习步骤中出现的分布偏移,带来了巨大挑战。现有的方法通常集中于无监督技能发现,以构建不断增长的技能库或从多个策略中进行蒸馏,这会导致可扩展性问题,因为各种操控任务不断被引入,并且可能无法在整个学习过程中确保一致的潜在空间,从而导致对先前学习技能的灾难性遗忘。本文介绍了 M2Distill,一种基于多模态蒸馏的终身模仿学习方法,重点在于在整个学习过程中保持视觉、语言和动作分布的潜在空间一致。通过调节从先前步骤到当前步骤的不同模态的潜在表示中的偏移,以及减少连续学习步骤之间高斯混合模型 (GMM) 策略的差异,我们确保学习到的策略保留执行先前学习任务的能力,同时无缝地整合新的技能。在 LIBERO 终身模仿学习基准套件(包括 LIBERO-OBJECT、LIBERO-GOAL 和 LIBERO-SPATIAL)上的大量评估表明,我们的方法在所有评估指标上始终优于以前的最先进方法。