LLM2D
模型预测控制与强化学习的综合:综述与分类
Synthesis of Model Predictive Control and Reinforcement Learning: Survey and Classification
作者: Rudolf Reiter, Jasper Hoffmann, Dirk Reinhardt, Florian Messerer, Katrin Baumg\"artner, Shamburaj Sawant, Joschka Boedecker, Moritz Diehl, Sebastien Gros
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.02133v1

摘要

arXiv:2502.02133v1 控制类型: 横向 摘要: MPC和RL是考虑马尔可夫决策过程两种成功控制技术的领域。这两种方法都是基于相似的基本原则,广泛应用于包括机器人学、过程控制、能源系统和自主驾驶在内的多种实际应用中。尽管它们存在相似之处,但MPC和RL遵循了源于不同社区和不同需求的不同的范式。各种技术上的差异,尤其是在算法中作为环境模型部分的角色,导致了具有几乎互补优势的方法论。由于它们的正交益处,将MPC与RL相结合的研究兴趣最近显著增加,导致出现了一大批利用MPC和RL的复杂想法。本文阐明了差异、相似之处和基础原理,这些基础原理允许不同的组合算法,并根据这些基础原理对现有工作进行分类。特别是,我们将通用的演员-评论家RL方法作为分类的基础,并探讨如何使用MPC的在线优化方法来提高策略的整体闭环性能。