LLM2D

摘要

arXiv:2505.08896v1 声明类型: 新摘要: 为交通信号灯控制（SI）开发自主车辆控制策略是一项具有挑战性的任务，因为其固有的复杂决策过程。本研究提出了一种基于深度强化学习（DRL）的SI纵向车辆控制策略。制定了一种综合的奖励函数，特别关注（i）基于车距间距的效率奖励，（ii）黄灯期间的决策标准，（iii）不对称的加速/减速响应，以及传统的安全和舒适标准。该奖励函数与两种流行的DRL算法，深度确定性策略梯度（DDPG）和软-演员评论家（SAC）相结合，可以处理加速/减速的连续动作空间。所提出的模型在真实世界领袖车辆（LV）轨迹与使用欧尔茨-乌伦贝克（OU）过程生成的模拟轨迹的组合上进行了训练。使用累积分布函数（CDF）图对所提出的模型的整体性能进行了测试，并与真实的轨迹数据进行了比较。结果显示，RL模型在不牺牲安全性的前提下，成功地保持了较低的车距间距（即更高的效率）和更小的切变。此外，为了评估所提出的模型的鲁棒性，我们根据车距跟随和交通信号遵守情况评估了模型在不同安全关键场景中的性能。DDPG和SAC模型都能够处理关键场景，而DDPG模型的动作轮廓更加平滑。总的来说，结果证实，基于DRL的SI纵向车辆控制策略可以有助于提高交通安全性、效率和舒适性。