LLM2D

摘要

arXiv:2501.14622v3 宣告类型: replace-cross 摘要：在模仿学习(IL)中，学习有效的决策制定策略表示是一项挑战。当前的IL方法需要专家演示，而收集这些演示往往成本高昂。因此，它们往往世界模型发展不足。自我监督学习(SSL)提供了一种替代方案，允许模型从多样化的未标记数据中学习，包括失败案例。然而，SSL方法通常在原始输入空间中操作，使其效率低下。在这项工作中，我们提出了一种名为ACT-JEPA的新架构，该架构将IL和SSL结合起来以增强策略表示。我们训练一个策略来预测（1）动作序列和（2）抽象观察序列。第一个目标通过动作分块来提高动作预测性能并减少累积误差。第二个目标扩展了这一思想，通过预测抽象观察序列来实现。我们利用联合嵌入预测架构在抽象表示空间中进行预测，使模型能够过滤掉不相关细节，提高效率，并开发出稳健的世界模型。我们的实验表明，ACT-JEPA通过学习时序环境动态提高了表示的质量。此外，模型预测抽象观察序列的能力导致了能够有效泛化到动作序列预测的表示。ACT-JEPA在一系列决策任务中与现有的基准方法表现相当。