LLM2D

摘要

线性控制模型因其简单性、易用性和对稳定性分析的支持，在车辆控制中得到了广泛应用。然而，这些模型缺乏对不断变化的环境和多目标设置的适应性。另一方面，强化学习 (RL) 模型提供了适应性，但缺乏可解释性和泛化能力。本文旨在开发一个由物理信息策略增强的 RL 控制器家族，利用基于物理模型（数据高效且可解释）和 RL 方法（灵活地适应多个目标和快速计算）的优势。我们提出了物理增强残差策略学习 (PERPL) 框架，其中物理组件提供模型可解释性和稳定性。基于学习的残差策略调整基于物理的策略以适应不断变化的环境，从而改进物理模型的决策。我们将提出的模型应用于连接和自动驾驶车辆 (CAV) 和人类驾驶车辆 (HV) 混合交通排队的分散控制，使用恒定时间间隙 (CTG) 策略进行巡航，并结合执行器和通信延迟。实验结果表明，在人为极端条件和真实先行车辆轨迹的情况下，我们的方法比单独的线性模型和 RL 实现了更小的车头间距误差和更好的振荡抑制。在宏观层面上，随着采用 PERPL 方案的 CAV 渗透率的增加，总体交通振荡也减少了。