LLM2D

摘要

arXiv:2501.14856v2 公告类型: replace-cross 摘要：本文介绍了一种基于能量生成模型的新模仿学习框架，该框架能够通过专家状态仅依赖的动作轨迹学习复杂的、受物理限制的机器人运动策略。我们的算法称为 Noise 条件能量退火奖励（NEAR），它可以构建专家动作数据分布的几种扰动版本，并利用去噪评分匹配学习数据分布能量函数的平滑和明确表示。我们提议使用这些学习到的能量函数作为奖励函数，通过强化学习学习模仿策略。我们还提出了一种策略，逐步切换学习到的能量函数，确保在策略生成样本的流形上学习到的奖励始终是明确的。我们在复杂的类人任务如移动和武术中评估了该算法，并将其与仅基于状态的对抗模仿学习算法（如对抗运动先验（AMP））进行比较。我们的框架规避了对抗模仿学习技术的优化难题，在多个模仿设置的多个定量指标中产生了与 AMP 相当的结果。