LLM2D

摘要

arXiv:2503.07338v2 通知类型: replace-cross 摘要: 世界模型旨在学习或构建环境的表示，从而支持未来的场景预测，进而支持智能运动规划。然而，现有的模型往往难以产生精细的预测，并且难以实现实时操作。在这项工作中，我们提出了T$^3$Former，这是一种新颖的4D 占有世界模型，用于自主驾驶。T$^3$Former首先通过预训练一种紧凑的\emph{三平面}表示，高效地编码3D 占有信息。然后，它从历史三平面中提取多尺度的时间运动特征，并采用自回归的方法，逐步预测未来三平面的变化。最后，这些三平面的变化与先前的状态结合，解码未来占有和 ego 运动轨迹。实验结果表明，T$^3$Former实现了1.44倍的速度提升（26 FPS），平均IoU提高到36.09，平均绝对规划误差降低到1.0米。演示内容可参见附录材料。