摘要
arXiv:2502.02133v1 控制类型: 交叉
摘要:在MPC和RL领域探讨了两种成功的马尔可夫决策过程控制技术。这两种方法均源自相近的基础原则,并且在诸如机器人技术、过程控制、能源系统和自动驾驶等实际应用中广泛使用。尽管它们具有相似之处,但MPC和RL仍遵循各自不同的范式,这些范式分别源自不同社区和不同的需求。种种技术差异,尤其是环境模型作为算法一部分的角色,导致了几乎互补优势的研究方法。由于它们提供了相互垂直的优点,最近关于结合方法的研究兴趣显著增加,从而产生了一个庞大且不断增长的概念库,利用MPC和RL进行复杂想法的探索。本文阐明了这些差异、相似之处以及使不同结合算法得以可能的基础原理,并据此对现有工作进行分类。特别地,我们以灵活的演员-评论家RL方法为基础进行分类,并探讨MPC的在线优化方法如何提高整个闭环控制政策的整体性能。