摘要
线性控制模型因其简单性、易用性和对稳定性分析的支持,在车辆控制中得到了广泛应用。然而,这些模型缺乏对不断变化的环境和多目标设置的适应性。另一方面,强化学习 (RL) 模型提供了适应性,但缺乏可解释性和泛化能力。本文旨在开发一个由物理信息策略增强的 RL 控制器家族,利用基于物理模型(数据高效且可解释)和 RL 方法(灵活地适应多个目标和快速计算)的优势。我们提出了物理增强残差策略学习 (PERPL) 框架,其中物理组件提供模型可解释性和稳定性。基于学习的残差策略调整基于物理的策略以适应不断变化的环境,从而改进物理模型的决策。我们将提出的模型应用于连接和自动驾驶车辆 (CAV) 和人类驾驶车辆 (HV) 混合交通排队的分散控制,使用恒定时间间隙 (CTG) 策略进行巡航,并结合执行器和通信延迟。实验结果表明,在人为极端条件和真实先行车辆轨迹的情况下,我们的方法比单独的线性模型和 RL 实现了更小的车头间距误差和更好的振荡抑制。在宏观层面上,随着采用 PERPL 方案的 CAV 渗透率的增加,总体交通振荡也减少了。