LLM2D

摘要

arXiv:2504.04562v1 提纲类型: cross 摘要：基础模型在驾驶相关任务方面的表现展示了强大的推理和泛化能力，包括场景理解、规划和控制。然而，它们仍然面临幻觉、不确定性以及长推断延迟的挑战。尽管现有的基础模型一般具备避免碰撞的知识，但它们往往缺乏与运输相关的安全知识。为克服这些限制，我们提出了 LetsPi，这是一种基于物理驱动的、双阶段、知识导向的框架，用于安全的人类样轨迹规划。为了防止幻觉并最小化不确定性，这个混合框架将大型语言模型（LLM）推理与物理驱动的社会力动力学相结合。LetsPi 利用 LLM 分析驾驶场景和历史信息，为社会力模型提供适当的参数和目标目的地（目标），进而生成未来的轨迹。此外，双阶段结构通过记忆收集阶段和快速推理阶段来平衡推理和计算效率。记忆收集阶段利用物理驱动的 LLM 通过推理、反思和记忆模块处理和提炼规划结果，将安全、高质量的驾驶经验存储在记忆库中。引入了代理安全措施和基于物理的提示技术，分别增强 LLM 对运输安全和物理力的知识。快速推理阶段从相似的驾驶经验中提取少量示例以适用于新场景，同时简化输入输出要求以实现快速轨迹规划而不牺牲安全。使用 HighD 数据集进行了广泛的实验，结果表明，Letspi 在五个安全指标上优于基线模型。请参见 PDF 以获取项目 GitHub 链接。