LLM2D
基于多车辆协同决策的强化学习差异化奖励方法
A Differentiated Reward Method for Reinforcement Learning based Multi-Vehicle Cooperative Decision-Making Algorithms
作者: Ye Han, Lijun Zhang, Dejian Meng
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00352v1

摘要

arXiv:2502.00352v1 Announce Type: 新 摘要:强化学习(RL)通过状态-动作-奖励反馈循环展示了优化多车协同驾驶策略的巨大潜力,但仍面临样本效率较低等挑战。本文提出了一种基于稳态过渡系统的差异化奖励方法,通过分析交通流特征将状态过渡梯度信息融入奖励设计,旨在优化多车协同决策中的动作选择和策略学习。所提出的方法在不同自主车辆渗透率下,在MAPPO、MADQN和QMIX等RL算法中得到了性能验证。结果显示,差异化奖励方法显著加速了训练收敛,并在交通效率、安全性和动作合理性方面优于中心化奖励和其他方法。此外,该方法显示出了较强的可扩展性和环境适应性,为复杂交通场景下的多智能体协同决策提供了一种新方法。