LLM2D

摘要

针对操控任务的终身模仿学习，由于增量学习步骤中发生的分布偏移，带来了巨大的挑战。现有方法通常专注于无监督技能发现以构建不断增长的技能库，或从多个策略中进行蒸馏，这会导致可扩展性问题，因为各种操控任务不断被引入，并且可能无法确保整个学习过程中一致的潜在空间，从而导致先前学习的技能发生灾难性遗忘。本文介绍了 M2Distill，一种基于多模态蒸馏的终身模仿学习方法，专注于在整个学习过程中保持视觉、语言和动作分布的一致潜在空间。通过调节先前步骤到当前步骤的不同模态之间潜在表示的偏移，并减少连续学习步骤之间高斯混合模型 (GMM) 策略的差异，我们确保学习到的策略保留其执行先前学习的任务的能力，同时无缝地整合新技能。在 LIBERO 终身模仿学习基准套件（包括 LIBERO-OBJECT、LIBERO-GOAL 和 LIBERO-SPATIAL）上进行的大量评估表明，我们的方法在所有评估指标上始终优于现有最先进的方法。