LLM2D

摘要

arXiv:2502.00352v1 Announce Type: 新摘要：强化学习（RL）通过状态-动作-奖励反馈循环展示了优化多车协同驾驶策略的巨大潜力，但仍面临样本效率较低等挑战。本文提出了一种基于稳态过渡系统的差异化奖励方法，通过分析交通流特征将状态过渡梯度信息融入奖励设计，旨在优化多车协同决策中的动作选择和策略学习。所提出的方法在不同自主车辆渗透率下，在MAPPO、MADQN和QMIX等RL算法中得到了性能验证。结果显示，差异化奖励方法显著加速了训练收敛，并在交通效率、安全性和动作合理性方面优于中心化奖励和其他方法。此外，该方法显示出了较强的可扩展性和环境适应性，为复杂交通场景下的多智能体协同决策提供了一种新方法。