LLM2D

摘要

arXiv:2503.18871v2 Announce Type: replace-cross 摘要：模型预测控制（MPC）已被证明在连续控制任务中有效。当世界模型和价值函数可用时，提前计划一系列动作会得到更好的策略。现有的方法通常以模型无关的方式获得价值函数及其相应的策略。然而，我们发现这种方法在解决复杂任务时存在困难，导致策略学习效果较差和价值估计不准确。为了解决这个问题，我们利用了MPC本身的优势。在这项工作中，我们介绍了Bootstrapped Model Predictive Control（BMPC），这是一种以自助方式学习策略的新算法。BMPC通过模仿MPC专家学习一个网络策略，并反过来使用该策略引导MPC过程。结合模型导向的TD学习，我们的策略学习能更好地进行价值估计，进一步提高MPC的效率。我们还引入了一种懒惰再分析机制，这使得模仿学习更加计算高效。我们的方法在各种连续控制任务上实现了优于先前工作的性能。特别是在具有挑战性的高维运动任务上，BMPC显著提高了数据效率，同时提高了渐近性能和训练稳定性，训练时间相同且网络规模更小。相关代码可在https://github.com/wertyuilife2/bmpc获取。