LLM2D

摘要

基于视觉的 3D 占用预测因单目视觉在深度估计方面的固有局限性而面临着重大挑战。本文提出了一种名为 CVT-Occ 的新方法，该方法通过利用随时间推移的体素几何对应关系进行时间融合，以提高 3D 占用预测的准确性。通过沿每个体素的视线采样点，并整合这些点在历史帧中的特征，我们构建了一个成本体积特征图，该特征图可以细化当前的体积特征，从而改善预测结果。我们的方法利用了历史观测中的视差线索，并采用数据驱动的方法来学习成本体积。我们通过对 Occ3D-Waymo 数据集进行严格的实验验证了 CVT-Occ 的有效性，在 3D 占用预测方面，该方法以最小的额外计算成本超越了最先进的方法。代码已发布在 \url{https://github.com/Tsinghua-MARS-Lab/CVT-Occ}。