摘要
arXiv:2409.11356v2 Announce Type: replace-cross
摘要:端到端的基于视觉的自动驾驶不仅与激光雷达-视觉融合相比成本效益更高,而且与传统方法相比更可靠。为了实现一个经济且 robust 的纯视觉端到端自动驾驶系统,我们提出了 RenderWorld,一种基于视觉的端到端自动驾驶框架,使用自监督的基于高斯分布的 Img2Occ 模块生成 3D 占有标签,然后通过 AM-VAE 编码这些标签,并使用世界模型进行预测和规划。RenderWorld 采用高斯点积来表示 3D 场景并渲染 2D 图像,与基于 NeRF 的方法相比,大幅提高了分割精度并减少了 GPU 内存消耗。通过将 AM-VAE 分别应用于空气和非空气的编码,RenderWorld 实现了更精细的场景元素表示,从而在来自自回归世界模型的 4D 占有预测和运动规划方面取得了最先进的效果。