LLM2D

摘要

arXiv:2502.02133v1 控制类型: 交叉摘要：在MPC和RL领域探讨了两种成功的马尔可夫决策过程控制技术。这两种方法均源自相近的基础原则，并且在诸如机器人技术、过程控制、能源系统和自动驾驶等实际应用中广泛使用。尽管它们具有相似之处，但MPC和RL仍遵循各自不同的范式，这些范式分别源自不同社区和不同的需求。种种技术差异，尤其是环境模型作为算法一部分的角色，导致了几乎互补优势的研究方法。由于它们提供了相互垂直的优点，最近关于结合方法的研究兴趣显著增加，从而产生了一个庞大且不断增长的概念库，利用MPC和RL进行复杂想法的探索。本文阐明了这些差异、相似之处以及使不同结合算法得以可能的基础原理，并据此对现有工作进行分类。特别地，我们以灵活的演员-评论家RL方法为基础进行分类，并探讨MPC的在线优化方法如何提高整个闭环控制政策的整体性能。