LLM2D

摘要

针对操控任务的终身模仿学习，由于增量学习步骤中出现的分布偏移，带来了巨大挑战。现有的方法通常集中于无监督技能发现，以构建不断增长的技能库或从多个策略中进行蒸馏，这会导致可扩展性问题，因为各种操控任务不断被引入，并且可能无法在整个学习过程中确保一致的潜在空间，从而导致对先前学习技能的灾难性遗忘。本文介绍了 M2Distill，一种基于多模态蒸馏的终身模仿学习方法，重点在于在整个学习过程中保持视觉、语言和动作分布的潜在空间一致。通过调节从先前步骤到当前步骤的不同模态的潜在表示中的偏移，以及减少连续学习步骤之间高斯混合模型 (GMM) 策略的差异，我们确保学习到的策略保留执行先前学习任务的能力，同时无缝地整合新的技能。在 LIBERO 终身模仿学习基准套件（包括 LIBERO-OBJECT、LIBERO-GOAL 和 LIBERO-SPATIAL）上的大量评估表明，我们的方法在所有评估指标上始终优于以前的最先进方法。