LLM2D
渲染世界:具有自监督3D标签的世界模型
RenderWorld: World Model with Self-Supervised 3D Label
作者: Ziyang Yan, Wenzhen Dong, Yihua Shao, Yuhang Lu, Liu Haiyang, Jingwen Liu, Haozhe Wang, Zhe Wang, Yan Wang, Fabio Remondino, Yuexin Ma
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2409.11356v2

摘要

arXiv:2409.11356v2 Announce Type: replace-cross 摘要:端到端的基于视觉的自动驾驶不仅与激光雷达-视觉融合相比成本效益更高,而且与传统方法相比更可靠。为了实现一个经济且 robust 的纯视觉端到端自动驾驶系统,我们提出了 RenderWorld,一种基于视觉的端到端自动驾驶框架,使用自监督的基于高斯分布的 Img2Occ 模块生成 3D 占有标签,然后通过 AM-VAE 编码这些标签,并使用世界模型进行预测和规划。RenderWorld 采用高斯点积来表示 3D 场景并渲染 2D 图像,与基于 NeRF 的方法相比,大幅提高了分割精度并减少了 GPU 内存消耗。通过将 AM-VAE 分别应用于空气和非空气的编码,RenderWorld 实现了更精细的场景元素表示,从而在来自自回归世界模型的 4D 占有预测和运动规划方面取得了最先进的效果。