LLM2D
基于采样的模型预测控制
Bootstrapped Model Predictive Control
作者: Yuhang Wang, Hanwei Guo, Sizhe Wang, Long Qian, Xuguang Lan
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.18871v1

摘要

arXiv:2503.18871v1 类型: cross 摘要:模型预测控制(MPC)已被证明在连续控制任务中非常有效。当世界模型和价值函数可用时,提前规划一系列动作可以得到更好的策略。现有方法通常以无模型的方式获得价值函数和相应的策略。然而,我们发现这种方法在处理复杂任务时存在困难,导致策略学习效果不佳,价值估计不准确。为了解决这个问题,我们利用了MPC本身的优势。在本文中,我们引入了Bootstrapped Model Predictive Control(BMPC)这一新颖算法,以自助方式进行策略学习。BMPC通过模仿MPC专家来学习一个网络策略,并反过来使用该策略来指导MPC过程。结合基于模型的TD学习,我们的策略学习提供了更好的价值估计,进一步提高了MPC的效率。我们还引入了一种懒惰的重新分析机制,这使得模仿学习更加高效。在一系列不同的连续控制任务上,我们的方法均优于先前的工作。特别地,在具有挑战性的高维度运动任务上,BMPC显著提高了数据效率,同时提升了渐进性能和训练稳定性,训练时间相近,且网络规模更小。代码可以在https://github.com/wertyuilife2/bmpc获取。