LLM2D
基于观察的模拟学习的条件噪声能量 annealed 奖励生成框架 (NEAR)
Noise-conditioned Energy-based Annealed Rewards (NEAR): A Generative Framework for Imitation Learning from Observation
作者: Anish Abhijit Diwan, Julen Urain, Jens Kober, Jan Peters
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2501.14856v2

摘要

arXiv:2501.14856v2 公告类型: replace-cross 摘要:本文介绍了一种基于能量生成模型的新模仿学习框架,该框架能够通过专家状态仅依赖的动作轨迹学习复杂的、受物理限制的机器人运动策略。我们的算法称为 Noise 条件能量退火奖励(NEAR),它可以构建专家动作数据分布的几种扰动版本,并利用去噪评分匹配学习数据分布能量函数的平滑和明确表示。我们提议使用这些学习到的能量函数作为奖励函数,通过强化学习学习模仿策略。我们还提出了一种策略,逐步切换学习到的能量函数,确保在策略生成样本的流形上学习到的奖励始终是明确的。我们在复杂的类人任务如移动和武术中评估了该算法,并将其与仅基于状态的对抗模仿学习算法(如对抗运动先验(AMP))进行比较。我们的框架规避了对抗模仿学习技术的优化难题,在多个模仿设置的多个定量指标中产生了与 AMP 相当的结果。