摘要
arXiv:2503.18871v2 Announce Type: replace-cross
摘要:模型预测控制(MPC)已被证明在连续控制任务中有效。当世界模型和价值函数可用时,提前计划一系列动作会得到更好的策略。现有的方法通常以模型无关的方式获得价值函数及其相应的策略。然而,我们发现这种方法在解决复杂任务时存在困难,导致策略学习效果较差和价值估计不准确。为了解决这个问题,我们利用了MPC本身的优势。在这项工作中,我们介绍了Bootstrapped Model Predictive Control(BMPC),这是一种以自助方式学习策略的新算法。BMPC通过模仿MPC专家学习一个网络策略,并反过来使用该策略引导MPC过程。结合模型导向的TD学习,我们的策略学习能更好地进行价值估计,进一步提高MPC的效率。我们还引入了一种懒惰再分析机制,这使得模仿学习更加计算高效。我们的方法在各种连续控制任务上实现了优于先前工作的性能。特别是在具有挑战性的高维运动任务上,BMPC显著提高了数据效率,同时提高了渐近性能和训练稳定性,训练时间相同且网络规模更小。相关代码可在https://github.com/wertyuilife2/bmpc获取。