LLM2D

摘要

arXiv:2410.02253v2 通知类型: 更新摘要: 近年来，由于其避免错误积累的优点，端到端的自动驾驶架构受到了越来越多的关注。目前大多数端到端的自动驾驶方法都是基于模仿学习（IL），可以快速通过模仿专家行为推导出驾驶策略。然而，IL 往往难以处理训练数据集之外的场景，特别是在高动态和互动密集型交通环境中。相比之下，基于强化学习（RL）的驾驶模型可以通过与环境交互来优化驾驶决策，从而提高适应性和鲁棒性。为结合 IL 和 RL 的优点，我们提出了 RAMBLE，一种基于端到端世界模型的 RL 方法，用于驾驶决策。RAMBLE 通过不对称变分自编码器从 RGB 图像和 LiDAR 数据中提取环境上下文信息。然后，使用基于Transformer的架构捕获交通参与者动态转换。接下来，应用一个演员-评论家结构的强化学习算法，基于当前状态和动态的潜在特征推导出驾驶策略。为了加速策略收敛并确保训练稳定，我们引入了一种训练方案，该方案使用 IL 初始化策略网络，并采用 KL 损失和软更新机制，从 IL 平滑过渡到 RL。 RAMBLE 在 CARLA Leaderboard 1.0 的路线完成率上取得了最先进的性能，并在 CARLA Leaderboard 2.0 上完成了所有 38 个场景，证明了其在处理复杂和动态交通场景方面的有效性。论文被接受后，该模型将在 https://github.com/SCP-CN-001/ramble 开源，以支持自动驾驶领域的进一步研究和开发。