LLM2D

摘要

arXiv:2502.14917v1 异或类型: cross 摘要: 从端到端的自动驾驶，直接将原始传感器输入映射为低级车辆控制，是沉浸式人工智能的重要组成部分。尽管在利用多模态大规模语言模型(MLLMs)进行高级交通场景语义理解方面取得了成功，但将这些概念性的语义理解有效翻译为低级运动控制命令并在跨场景驾驶中实现泛化和共识仍然是一个挑战。我们引入了Sce2DriveX，一种类似人类驾驶的推理链(Chain-of-Thought，CoT)多模态大规模语言模型框架。Sce2DriveX 利用局部场景视频和全局 bird’s-eye-view (BEV) 地图的多模态联合学习，深入理解长时间程的空间-时间关系和道路拓扑，增强其在3D动态/静态场景中的全面感知和推理能力，并在跨场景驾驶中实现驾驶泛化。在此基础上，它重构了人类驾驶内在的隐式认知链，涵盖了场景理解、元动作推理、行为解释分析、运动规划和控制，从而进一步缩小了自动驾驶与人类思维过程之间的差距。为了提升模型性能，我们开发了第一个面向3D空间理解和长轴任务推理的视觉问答(VQA)驾驶指令数据集。广泛的实验表明，Sce2DriveX 在从场景理解到端到端驾驶的所有环节均达到了最先进的性能，并在CARLA Bench2Drive基准测试中表现出良好的泛化能力。