LLM2D

摘要

arXiv:2409.11356v2 Announce Type: replace-cross 摘要：端到端的基于视觉的自动驾驶不仅与激光雷达-视觉融合相比成本效益更高，而且与传统方法相比更可靠。为了实现一个经济且 robust 的纯视觉端到端自动驾驶系统，我们提出了 RenderWorld，一种基于视觉的端到端自动驾驶框架，使用自监督的基于高斯分布的 Img2Occ 模块生成 3D 占有标签，然后通过 AM-VAE 编码这些标签，并使用世界模型进行预测和规划。RenderWorld 采用高斯点积来表示 3D 场景并渲染 2D 图像，与基于 NeRF 的方法相比，大幅提高了分割精度并减少了 GPU 内存消耗。通过将 AM-VAE 分别应用于空气和非空气的编码，RenderWorld 实现了更精细的场景元素表示，从而在来自自回归世界模型的 4D 占有预测和运动规划方面取得了最先进的效果。