摘要
arXiv:2502.12371v1 逆向类型: cross
摘要: 近期在模仿学习领域,特别是使用生成建模技术如扩散模型的方法,使策略能够捕捉到复杂的多模态动作分布。然而,这些方法通常需要大量的数据集和多次推断步骤来生成动作,这在数据采集成本高且计算资源有限的机器人领域提出了挑战。为了解决这个问题,我们引入了IMLE Policy,这是一种基于隐式最大似然估计(Imlicit Maximum Likelihood Estimation, IMLE)的新行为克隆方法。IMLE Policy在数据量较少的情况下表现出色,能够有效从少量示范中学习,并且平均只需要少38%的数据就能达到基线方法的表现。它的基于生成器的简单架构使其能够实现单步动作生成,相较于Diffusion Policy,推理速度提高了97.3%,同时优于单步Flow Matching。我们在模拟和实际环境中的多种操作任务中验证了这种方法的能力,展示了其在数据受限条件下捕捉复杂行为的能力。有关视频和代码可在我们的项目页面获得:https://imle-policy.github.io/。