LLM2D

摘要

我们提出了一种名为 DualAD 的全新自动驾驶框架，旨在模仿人类驾驶过程中的推理方式。DualAD 包含两层：底层是一个基于规则的运动规划器，负责处理只需最少推理的常规驾驶任务；顶层则包含一个基于规则的文本编码器，将驾驶场景从绝对状态转换为文本描述。随后，大型语言模型 (LLM) 处理该文本以做出驾驶决策。当检测到潜在危险时，顶层会介入底层的决策，模拟人类在关键情况下的推理方式。闭环实验表明，DualAD 使用零样本预训练模型，显著优于缺乏推理能力的基于规则的运动规划器。我们的实验还突出了文本编码器的有效性，它极大地增强了模型对场景的理解。此外，集成的 DualAD 模型在更强大的 LLM 的支持下得到了改进，表明该框架具有进一步增强的潜力。我们公开发布了代码和基准。