LLM2D

摘要

arXiv:2409.11267v2 宣称类型: 替换交叉摘要：本文提出了一种结合强化学习和模型预测控制(MPC)的方法，以高效地解决混合逻辑动态系统的有限 horizon 最优控制问题。对于具有离散和连续决策变量的此类系统的基于优化的控制涉及在线求解混合整数线性规划问题，这会受到维数灾的困扰。我们提出的方法旨在通过将离散变量的决策与连续变量的决策解耦，减轻这一问题。在提出的这种方法中，强化学习确定了离散决策变量，并将MPC控制器的在线优化问题从混合整数线性规划简化为线性规划，显著减少了计算时间。本文的一个基本贡献是对解耦的 Q 函数的定义，这在组合动作空间中使学习问题变得可处理。我们通过使用递归神经网络来逼近解耦的 Q 函数，并展示了它们如何在强化学习环境中使用。使用实际数据对微电网系统进行的仿真试验表明，所提出的方法在保持高可行性和低次优化的同时，大幅减少了 MPC 的在线计算时间。