LLM2D

摘要

arXiv:2407.05679v3 宣告类型: replace-cross 摘要：世界模型因其对未来场景的预测能力而在自主驾驶中引起了越来越多的关注。本文提出了一种名为BEVWorld的新框架，该框架将多模态传感器输入转换为统一且紧凑的鸟瞰图（BEV）潜在空间，以实现全方位环境建模。所提出的世界模型包括两个主要组成部分：多模态分词器和潜在BEV序列扩散模型。多模态分词器首先编码异构感知数据，并通过投射光线渲染将其解码为激光雷达和360度视图图像观察，以自监督的方式重建潜在的BEV令牌。这使得能够在共享的空间表示中联合建模和双向编码全景图像和点云数据。在此基础上，潜在BEV序列扩散模型在高阶动作令牌的条件下进行未来场景的一致性预测，从而在时间尺度上实现场景级推理。大量的实验表明，BEVWorld在自主驾驶基准测试中具有有效性，展示了其在真实未来场景生成方面的能力以及在下游任务如感知和运动预测中的优势。