LLM2D

摘要

arXiv:2505.10482v1 类型: cross 摘要: 扩散策略在机器人学、游戏和自主驾驶等决策场景中广泛应用，由于其强大的表示能力，能够从演示数据中学习多样化技能。然而，演示数据的次优性和有限的覆盖率可能导致生成次优轨迹，甚至产生灾难性失败。尽管基于强化学习(RL)的微调已成为解决这些限制的有前途的解决方案，但现有的方法难以有效地将近端策略优化(PPO)适应到扩散模型中。这一挑战源于去噪过程中动作似然估计的计算不可操作性，导致复杂的优化目标。在从随机初始化的策略开始的实验中，我们发现，在线调整扩散策略的样本效率远低于直接在MLP策略上应用PPO (MLP+PPO)。为了应对这些挑战，我们引入了NCDPO，这是一种新颖的框架，将扩散策略重新表述为噪声条件下的定性策略。通过将每个去噪步骤视为在预采样噪声条件下进行的可微变换，NCDPO 使得似然性评估和所有扩散时间步的梯度反向传播变得可处理。我们的实验表明，当从零开始训练时，NCDPO 在样本效率上可以与MLP+PPO匹敌，在多种基准测试中（包括连续机器人控制和多智能体游戏场景）在样本效率和最终性能上均超过现有方法。此外，我们的实验结果表明，我们的方法对扩散策略中的去噪时间步数量具有鲁棒性。