LLM2D

摘要

arXiv:2505.08376v1 交叉公告类型摘要：最近的研究表明，通过建模复杂的策略、表达高度的多模态性以及高效处理高维连续控制任务，扩散模型在增强学习（RL）中具有巨大的潜力。然而，目前尚缺乏关于如何快速且稳定地优化基于扩散的策略（例如，扩散策略）的研究。在本文中，我们提出了一种基于Adam的扩散策略优化（ADPO），这是一种快速的算法框架，使用自适应梯度下降方法在机器人控制任务中调整基于扩散的策略。在RL训练中，自适应梯度方法较少受到关注，更不用说基于扩散的策略了。我们确认ADPO在标准机器人任务的微调效果上优于其他基于扩散的RL方法。具体而言，我们在标准机器人控制任务上进行了大量实验，以测试ADPO的效果，其中提供了六种流行的基于扩散的RL方法作为基准方法。实验结果表明，ADPO在基准方法上获得了更好的或大致相当的表现。最后，我们系统地分析了在标准机器人任务中多种超参数的敏感性，为后续的实际应用提供了指导。我们的视频演示在https://github.com/Timeless-lab/ADPO.git中发布。