LLM2D

摘要

4D毫米波雷达（MMW）在3D物体检测中越来越受欢迎，因为它不仅提供了高度信息，还提供了密集的点云数据，超越了传统的3D毫米波雷达。近年来，雷达-视觉融合模型在性能上已经接近基于激光雷达（LiDAR）的模型，同时在硬件成本和极端条件下的适应性方面具有优势。然而，许多雷达-视觉融合模型将雷达视为稀疏的激光雷达，未能充分利用雷达特有的信息。此外，这些多模态网络往往对单一模态的失效非常敏感，尤其是视觉模态。为了应对这些挑战，我们提出了雷达深度提升-分割-射击（RDL）模块，该模块将雷达特有的数据整合到深度预测过程中，从而提升了视觉鸟瞰图（BEV）特征的质量。我们进一步引入了一种统一特征融合（UFF）方法，该方法通过共享模块提取不同模态的BEV特征。为了评估多模态模型的鲁棒性，我们设计了一种新的失效测试（FT）消融实验，通过注入高斯噪声来模拟视觉模态的失效。我们在View-of-Delft（VoD）和TJ4D数据集上进行了广泛的实验。结果表明，我们提出的统一BEV融合（UniBEVFusion）网络在TJ4D数据集上的3D和BEV物体检测准确性方面显著优于现有最先进的模型，分别提升了1.44和1.72。