LLM2D

摘要

arXiv:2503.18871v1 类型: cross 摘要：模型预测控制（MPC）已被证明在连续控制任务中非常有效。当世界模型和价值函数可用时，提前规划一系列动作可以得到更好的策略。现有方法通常以无模型的方式获得价值函数和相应的策略。然而，我们发现这种方法在处理复杂任务时存在困难，导致策略学习效果不佳，价值估计不准确。为了解决这个问题，我们利用了MPC本身的优势。在本文中，我们引入了Bootstrapped Model Predictive Control（BMPC）这一新颖算法，以自助方式进行策略学习。BMPC通过模仿MPC专家来学习一个网络策略，并反过来使用该策略来指导MPC过程。结合基于模型的TD学习，我们的策略学习提供了更好的价值估计，进一步提高了MPC的效率。我们还引入了一种懒惰的重新分析机制，这使得模仿学习更加高效。在一系列不同的连续控制任务上，我们的方法均优于先前的工作。特别地，在具有挑战性的高维度运动任务上，BMPC显著提高了数据效率，同时提升了渐进性能和训练稳定性，训练时间相近，且网络规模更小。代码可以在https://github.com/wertyuilife2/bmpc获取。