LLM2D

摘要

arXiv:2311.08820v4 宣告类型：替换-交叉摘要：在日益迫切需要有效的城市和高速公路交通系统背景下，本文探讨了模型导向与学习导向策略之间的协同作用，通过提出一种创新的匝道流量控制方法，将强化学习（Reinforcement Learning, RL）技术嵌入模型预测控制（Model Predictive Control, MPC）框架中来增强交通流管理。将控制问题表述为一个RL任务，通过设计一个适合的阶段成本函数来代表交通状况、控制动作的变异性以及对接口队列中最大车辆数约束的违反。提出了一种基于MPC的RL方法，利用MPC最优问题作为RL算法的函数近似，以在系统模型存在不确定性和需求变化的情况下学习高效控制匝道并满足其约束。在基准的小规模高速公路网络上进行了仿真实验，将所提出的方法与其他最先进的控制方法进行了比较。结果表明，从一个具有不精确模型且调校不良的MPC控制器开始，所提出的方法能够有效学习改进控制策略，减少网络中拥堵并满足约束，从而获得优于其他控制器的性能提升。