摘要
我们提出了一种名为 DualAD 的全新自动驾驶框架,旨在模仿人类驾驶过程中的推理方式。DualAD 包含两层:底层是一个基于规则的运动规划器,负责处理只需最少推理的常规驾驶任务;顶层则包含一个基于规则的文本编码器,将驾驶场景从绝对状态转换为文本描述。随后,大型语言模型 (LLM) 处理该文本以做出驾驶决策。当检测到潜在危险时,顶层会介入底层的决策,模拟人类在关键情况下的推理方式。闭环实验表明,DualAD 使用零样本预训练模型,显著优于缺乏推理能力的基于规则的运动规划器。我们的实验还突出了文本编码器的有效性,它极大地增强了模型对场景的理解。此外,集成的 DualAD 模型在更强大的 LLM 的支持下得到了改进,表明该框架具有进一步增强的潜力。我们公开发布了代码和基准。