摘要
arXiv:2502.00352v1 Announce Type: 新
摘要:强化学习(RL)通过状态-动作-奖励反馈循环展示了优化多车协同驾驶策略的巨大潜力,但仍面临样本效率较低等挑战。本文提出了一种基于稳态过渡系统的差异化奖励方法,通过分析交通流特征将状态过渡梯度信息融入奖励设计,旨在优化多车协同决策中的动作选择和策略学习。所提出的方法在不同自主车辆渗透率下,在MAPPO、MADQN和QMIX等RL算法中得到了性能验证。结果显示,差异化奖励方法显著加速了训练收敛,并在交通效率、安全性和动作合理性方面优于中心化奖励和其他方法。此外,该方法显示出了较强的可扩展性和环境适应性,为复杂交通场景下的多智能体协同决策提供了一种新方法。