LLM2D
适应性扩散策略优化在机器人操作中的应用
Adaptive Diffusion Policy Optimization for Robotic Manipulation
作者: Huiyun Jiang, Zhuang Yang
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.08376v1

摘要

arXiv:2505.08376v1 交叉公告类型 摘要:最近的研究表明,通过建模复杂的策略、表达高度的多模态性以及高效处理高维连续控制任务,扩散模型在增强学习(RL)中具有巨大的潜力。然而,目前尚缺乏关于如何快速且稳定地优化基于扩散的策略(例如,扩散策略)的研究。在本文中,我们提出了一种基于Adam的扩散策略优化(ADPO),这是一种快速的算法框架,使用自适应梯度下降方法在机器人控制任务中调整基于扩散的策略。在RL训练中,自适应梯度方法较少受到关注,更不用说基于扩散的策略了。我们确认ADPO在标准机器人任务的微调效果上优于其他基于扩散的RL方法。具体而言,我们在标准机器人控制任务上进行了大量实验,以测试ADPO的效果,其中提供了六种流行的基于扩散的RL方法作为基准方法。实验结果表明,ADPO在基准方法上获得了更好的或大致相当的表现。最后,我们系统地分析了在标准机器人任务中多种超参数的敏感性,为后续的实际应用提供了指导。我们的视频演示在https://github.com/Timeless-lab/ADPO.git中发布。