摘要
arXiv:2503.07338v2 通知类型: replace-cross
摘要: 世界模型旨在学习或构建环境的表示,从而支持未来的场景预测,进而支持智能运动规划。然而,现有的模型往往难以产生精细的预测,并且难以实现实时操作。在这项工作中,我们提出了T$^3$Former,这是一种新颖的4D 占有世界模型,用于自主驾驶。T$^3$Former首先通过预训练一种紧凑的\emph{三平面}表示,高效地编码3D 占有信息。然后,它从历史三平面中提取多尺度的时间运动特征,并采用自回归的方法,逐步预测未来三平面的变化。最后,这些三平面的变化与先前的状态结合,解码未来占有和 ego 运动轨迹。实验结果表明,T$^3$Former实现了1.44倍的速度提升(26 FPS),平均IoU提高到36.09,平均绝对规划误差降低到1.0米。演示内容可参见附录材料。