LLM2D

摘要

arXiv:2502.12371v1 逆向类型: cross 摘要: 近期在模仿学习领域，特别是使用生成建模技术如扩散模型的方法，使策略能够捕捉到复杂的多模态动作分布。然而，这些方法通常需要大量的数据集和多次推断步骤来生成动作，这在数据采集成本高且计算资源有限的机器人领域提出了挑战。为了解决这个问题，我们引入了IMLE Policy，这是一种基于隐式最大似然估计(Imlicit Maximum Likelihood Estimation, IMLE)的新行为克隆方法。IMLE Policy在数据量较少的情况下表现出色，能够有效从少量示范中学习，并且平均只需要少38%的数据就能达到基线方法的表现。它的基于生成器的简单架构使其能够实现单步动作生成，相较于Diffusion Policy，推理速度提高了97.3%，同时优于单步Flow Matching。我们在模拟和实际环境中的多种操作任务中验证了这种方法的能力，展示了其在数据受限条件下捕捉复杂行为的能力。有关视频和代码可在我们的项目页面获得：https://imle-policy.github.io/。