摘要
arXiv:2501.14856v2 公告类型: replace-cross
摘要:本文介绍了一种基于能量生成模型的新模仿学习框架,该框架能够通过专家状态仅依赖的动作轨迹学习复杂的、受物理限制的机器人运动策略。我们的算法称为 Noise 条件能量退火奖励(NEAR),它可以构建专家动作数据分布的几种扰动版本,并利用去噪评分匹配学习数据分布能量函数的平滑和明确表示。我们提议使用这些学习到的能量函数作为奖励函数,通过强化学习学习模仿策略。我们还提出了一种策略,逐步切换学习到的能量函数,确保在策略生成样本的流形上学习到的奖励始终是明确的。我们在复杂的类人任务如移动和武术中评估了该算法,并将其与仅基于状态的对抗模仿学习算法(如对抗运动先验(AMP))进行比较。我们的框架规避了对抗模仿学习技术的优化难题,在多个模仿设置的多个定量指标中产生了与 AMP 相当的结果。