LLM2D

摘要

arXiv:2503.23993v1 交叉公告类型：深度填充摘要：深度完成任务是自主驾驶中的一个关键问题，涉及从稀疏深度图和RGB图像生成密集深度图。现有的大多数方法在获得初始密集深度图后，使用空间传播网络逐迭代地细化深度图。在本文中，我们提出了DenseFormer，这是一种新颖的方法，将扩散模型集成到深度完成任务中。通过引入扩散模型的去噪机制，DenseFormer通过多次迭代逐级细化初始随机深度分布，生成密集深度图。我们提出了一种特征提取模块，利用特征金字塔结构和多层可变形注意力机制，有效地从稀疏深度图和RGB图像中提取和整合特征，这些特征作为扩散过程的引导条件。此外，本文还提出了一种深度细化模块，该模块对由扩散过程生成的密集深度结果进行多步迭代细化，利用多尺度信息丰富的图像特征和稀疏深度输入，进一步提高预测深度图的准确性。在KITTI室外场景数据集上的广泛实验表明，DenseFormer优于经典的深度完成方法。