摘要
arXiv:2502.02133v1 控制类型: 横向
摘要: MPC和RL是考虑马尔可夫决策过程两种成功控制技术的领域。这两种方法都是基于相似的基本原则,广泛应用于包括机器人学、过程控制、能源系统和自主驾驶在内的多种实际应用中。尽管它们存在相似之处,但MPC和RL遵循了源于不同社区和不同需求的不同的范式。各种技术上的差异,尤其是在算法中作为环境模型部分的角色,导致了具有几乎互补优势的方法论。由于它们的正交益处,将MPC与RL相结合的研究兴趣最近显著增加,导致出现了一大批利用MPC和RL的复杂想法。本文阐明了差异、相似之处和基础原理,这些基础原理允许不同的组合算法,并根据这些基础原理对现有工作进行分类。特别是,我们将通用的演员-评论家RL方法作为分类的基础,并探讨如何使用MPC的在线优化方法来提高策略的整体闭环性能。