LLM2D

摘要

arXiv:2409.15105v1 公告类型: 新提交摘要: 在混合自主交通环境中，自动驾驶汽车的每一个决策都可能对交通系统产生重大影响。由于车辆之间的复杂交互，做出既能确保当前和未来高交通效率和安全的决策具有挑战性。连接自动化车辆（CAVs）由于其更强的感知和通信能力，在这一连续、高度动态和交互的环境中改善决策质量具有巨大潜力。对于基于深度强化学习（DRL）的多车辆协同决策算法，我们需要表示车辆之间的交互以获取交互特征。这方面的表示直接影响到学习效率和学习到的策略质量。为此，我们提出了一种基于transformer和强化学习算法的CAV决策架构。我们使用可学习的策略令牌作为多车辆联合策略的学习媒介，所有感兴趣区域内车辆的状态可以自适应地被注意到，以提取代理之间的交互特征。我们还设计了一种直观的物理位置编码，其冗余的位置信息优化了网络性能。仿真结果表明，我们的模型能够充分利用交通场景中所有车辆的状态信息，从而获得符合效率和安全目标的高质量驾驶决策。对比结果显示，我们的方法显著提升了现有的基于DRL的多车辆协同决策算法。