摘要
arXiv:2504.16925v1 宣布类型:交叉
摘要:模仿学习的 recent 进展得益于能够处理复杂视觉运动任务、多模态分布和大数据集的策略架构。然而,这些方法往往依赖于从大量专家演示中学习。为了解决这些不足,我们提出了潜在扩散规划(LDP),这是一种模块化方法,其包含一个能够利用无动作演示的规划器,以及一个能够利用亚最优数据的逆动力学模型,它们都操作在一个学习到的潜在空间上。首先,通过变分自编码器学习一个紧凑的潜在空间,这使我们在基于图像的领域中能够有效地预测未来状态。然后,我们使用扩散目标训练一个规划器和一个逆动力学模型。通过将规划与动作预测分离,LDP 可以从亚最优和无动作数据的密集监督信号中受益。在模拟的视觉机器人操纵任务中,LDP 在性能上超过了最先进的模仿学习方法,因为这些方法无法利用此类额外的数据。