LLM2D

摘要

arXiv:2504.16925v1 宣布类型：交叉摘要：模仿学习的 recent 进展得益于能够处理复杂视觉运动任务、多模态分布和大数据集的策略架构。然而，这些方法往往依赖于从大量专家演示中学习。为了解决这些不足，我们提出了潜在扩散规划（LDP），这是一种模块化方法，其包含一个能够利用无动作演示的规划器，以及一个能够利用亚最优数据的逆动力学模型，它们都操作在一个学习到的潜在空间上。首先，通过变分自编码器学习一个紧凑的潜在空间，这使我们在基于图像的领域中能够有效地预测未来状态。然后，我们使用扩散目标训练一个规划器和一个逆动力学模型。通过将规划与动作预测分离，LDP 可以从亚最优和无动作数据的密集监督信号中受益。在模拟的视觉机器人操纵任务中，LDP 在性能上超过了最先进的模仿学习方法，因为这些方法无法利用此类额外的数据。