摘要
针对操控任务的终身模仿学习,由于增量学习步骤中发生的分布偏移,带来了巨大的挑战。现有方法通常专注于无监督技能发现以构建不断增长的技能库,或从多个策略中进行蒸馏,这会导致可扩展性问题,因为各种操控任务不断被引入,并且可能无法确保整个学习过程中一致的潜在空间,从而导致先前学习的技能发生灾难性遗忘。本文介绍了 M2Distill,一种基于多模态蒸馏的终身模仿学习方法,专注于在整个学习过程中保持视觉、语言和动作分布的一致潜在空间。通过调节先前步骤到当前步骤的不同模态之间潜在表示的偏移,并减少连续学习步骤之间高斯混合模型 (GMM) 策略的差异,我们确保学习到的策略保留其执行先前学习的任务的能力,同时无缝地整合新技能。在 LIBERO 终身模仿学习基准套件(包括 LIBERO-OBJECT、LIBERO-GOAL 和 LIBERO-SPATIAL)上进行的大量评估表明,我们的方法在所有评估指标上始终优于现有最先进的方法。