LLM2D

摘要

arXiv:2502.02133v1 控制类型: 横向摘要: MPC和RL是考虑马尔可夫决策过程两种成功控制技术的领域。这两种方法都是基于相似的基本原则，广泛应用于包括机器人学、过程控制、能源系统和自主驾驶在内的多种实际应用中。尽管它们存在相似之处，但MPC和RL遵循了源于不同社区和不同需求的不同的范式。各种技术上的差异，尤其是在算法中作为环境模型部分的角色，导致了具有几乎互补优势的方法论。由于它们的正交益处，将MPC与RL相结合的研究兴趣最近显著增加，导致出现了一大批利用MPC和RL的复杂想法。本文阐明了差异、相似之处和基础原理，这些基础原理允许不同的组合算法，并根据这些基础原理对现有工作进行分类。特别是，我们将通用的演员-评论家RL方法作为分类的基础，并探讨如何使用MPC的在线优化方法来提高策略的整体闭环性能。