摘要
动态和交互式的交通场景给自动驾驶系统带来了巨大的挑战。强化学习 (RL) 提供了一种很有前途的方法,它能够在预先收集的数据集和预定义条件的限制之外探索驾驶策略,尤其是在复杂的环境中。然而,一个关键的挑战在于如何有效地从高维、多模态观测序列中提取时空特征,同时最大程度地减少随着时间的推移而累积的误差。此外,在训练过程中,如何有效地引导大规模 RL 模型收敛到最佳驾驶策略,而不会出现频繁的失败,仍然是一个难题。
我们提出了一种名为 Ramble 的端到端模型驱动的 RL 算法来解决这些问题。Ramble 将多视角 RGB 图像和 LiDAR 点云处理成低维潜在特征,以捕捉每个时间步的交通场景上下文。然后,采用基于 Transformer 的架构来建模时间依赖关系并预测未来状态。通过学习环境的动力学模型,Ramble 可以预见即将发生的交通事件,并做出更明智、更具战略性的决策。我们的实现表明,在特征提取和决策方面的先前经验在加速 RL 模型向最佳驾驶策略收敛方面起着至关重要的作用。Ramble 在 CARLA 排行榜 2.0 上实现了最先进的路线完成率和驾驶评分,展示了其在管理复杂和动态交通状况方面的有效性。