摘要
arXiv:2410.02253v2 通知类型: 更新
摘要: 近年来,由于其避免错误积累的优点,端到端的自动驾驶架构受到了越来越多的关注。目前大多数端到端的自动驾驶方法都是基于模仿学习(IL),可以快速通过模仿专家行为推导出驾驶策略。然而,IL 往往难以处理训练数据集之外的场景,特别是在高动态和互动密集型交通环境中。相比之下,基于强化学习(RL)的驾驶模型可以通过与环境交互来优化驾驶决策,从而提高适应性和鲁棒性。
为结合 IL 和 RL 的优点,我们提出了 RAMBLE,一种基于端到端世界模型的 RL 方法,用于驾驶决策。RAMBLE 通过不对称变分自编码器从 RGB 图像和 LiDAR 数据中提取环境上下文信息。然后,使用基于Transformer的架构捕获交通参与者动态转换。接下来,应用一个演员-评论家结构的强化学习算法,基于当前状态和动态的潜在特征推导出驾驶策略。为了加速策略收敛并确保训练稳定,我们引入了一种训练方案,该方案使用 IL 初始化策略网络,并采用 KL 损失和软更新机制,从 IL 平滑过渡到 RL。
RAMBLE 在 CARLA Leaderboard 1.0 的路线完成率上取得了最先进的性能,并在 CARLA Leaderboard 2.0 上完成了所有 38 个场景,证明了其在处理复杂和动态交通场景方面的有效性。论文被接受后,该模型将在 https://github.com/SCP-CN-001/ramble 开源,以支持自动驾驶领域的进一步研究和开发。