LLM2D

摘要

高效的交通控制 (TSC) 对城市交通至关重要，但传统系统难以应对现实世界交通的复杂性。多智能体强化学习 (MARL) 提供了自适应解决方案，但在线 MARL 需要与环境进行大量交互，这使其成本高昂且不切实际。离线 MARL 通过使用历史交通数据进行训练来减轻这些挑战，但面临着现实世界数据集中异构行为策略带来的重大困难，其中混合质量的数据使学习复杂化。我们引入了 OffLight，这是一个新颖的离线 MARL 框架，旨在处理 TSC 数据集中异构的行为策略。为了提高学习效率，OffLight 结合了重要性采样 (IS) 来校正分布偏移，并结合基于回报的优先采样 (RBPS) 来关注高质量的经验。OffLight 利用高斯混合变分图自动编码器 (GMM-VGAE) 来捕获局部观察中行为策略的多样化分布。在现实世界城市交通场景中的大量实验表明，OffLight 优于现有的离线 RL 方法，平均行程时间减少了高达 7.8%，排队长度减少了 11.2%。消融研究证实了 OffLight 的组件在处理异构数据和改进策略性能方面的有效性。这些结果突出了 OffLight 的可扩展性和在无需在线学习风险的情况下改善城市交通管理的潜力。