LLM2D

摘要

我们提出了一种名为扩散模型预测控制（D-MPC）的新型MPC方法，该方法利用扩散模型学习多步动作建议和多步动力学模型，并将两者结合用于在线MPC。在流行的D4RL基准测试中，我们证明了其性能明显优于现有的使用MPC的基于模型的离线规划方法，并且与最先进的（SOTA）基于模型和无模型的强化学习方法具有竞争力。我们还说明了D-MPC在运行时优化新奖励函数和适应新动力学的能力，并突出了其相对于现有基于扩散的规划基线的优势。