摘要
arXiv:2409.15105v1 公告类型: 新提交 摘要: 在混合自主交通环境中,自动驾驶汽车的每一个决策都可能对交通系统产生重大影响。由于车辆之间的复杂交互,做出既能确保当前和未来高交通效率和安全的决策具有挑战性。连接自动化车辆(CAVs)由于其更强的感知和通信能力,在这一连续、高度动态和交互的环境中改善决策质量具有巨大潜力。对于基于深度强化学习(DRL)的多车辆协同决策算法,我们需要表示车辆之间的交互以获取交互特征。这方面的表示直接影响到学习效率和学习到的策略质量。为此,我们提出了一种基于transformer和强化学习算法的CAV决策架构。我们使用可学习的策略令牌作为多车辆联合策略的学习媒介,所有感兴趣区域内车辆的状态可以自适应地被注意到,以提取代理之间的交互特征。我们还设计了一种直观的物理位置编码,其冗余的位置信息优化了网络性能。仿真结果表明,我们的模型能够充分利用交通场景中所有车辆的状态信息,从而获得符合效率和安全目标的高质量驾驶决策。对比结果显示,我们的方法显著提升了现有的基于DRL的多车辆协同决策算法。