摘要
arXiv:2505.10482v1 类型: cross
摘要: 扩散策略在机器人学、游戏和自主驾驶等决策场景中广泛应用,由于其强大的表示能力,能够从演示数据中学习多样化技能。然而,演示数据的次优性和有限的覆盖率可能导致生成次优轨迹,甚至产生灾难性失败。尽管基于强化学习(RL)的微调已成为解决这些限制的有前途的解决方案,但现有的方法难以有效地将近端策略优化(PPO)适应到扩散模型中。这一挑战源于去噪过程中动作似然估计的计算不可操作性,导致复杂的优化目标。在从随机初始化的策略开始的实验中,我们发现,在线调整扩散策略的样本效率远低于直接在MLP策略上应用PPO (MLP+PPO)。为了应对这些挑战,我们引入了NCDPO,这是一种新颖的框架,将扩散策略重新表述为噪声条件下的定性策略。通过将每个去噪步骤视为在预采样噪声条件下进行的可微变换,NCDPO 使得似然性评估和所有扩散时间步的梯度反向传播变得可处理。我们的实验表明,当从零开始训练时,NCDPO 在样本效率上可以与MLP+PPO匹敌,在多种基准测试中(包括连续机器人控制和多智能体游戏场景)在样本效率和最终性能上均超过现有方法。此外,我们的实验结果表明,我们的方法对扩散策略中的去噪时间步数量具有鲁棒性。