摘要
arXiv:2502.04377v1 宣告类型: cross
摘要:地图构建任务在为自动驾驶系统提供精确且全面的静态环境信息方面发挥着至关重要的作用。主要传感器包括相机和LiDAR,配置根据成本-性能考虑可以是仅相机、仅LiDAR或相机与LiDAR的融合。虽然融合方法通常表现最佳,但现有方法往往忽略了模态之间的交互,并依赖于简单的融合策略,这些方法会遇到对齐不当和信息丢失的问题。为了解决这些问题,我们提出了MapFusion,这是一种用于地图构建的新颖多模态Bird's-Eye View (BEV)特征融合方法。具体来说,为了解决相机和LiDAR BEV特征之间的语义对齐问题,我们引入了Cross-modal Interaction Transform (CIT)模块,该模块能够在两个BEV特征空间之间实现交互,并通过自注意力机制增强特征表示。此外,我们提出了有效的Dual Dynamic Fusion (DDF)模块,可以自适应地从不同模态中选择有价值的信息,从而最大限度地利用不同模态间的固有信息。而且,MapFusion设计得简单且即插即用,可以轻松集成到现有管道中。我们分别在高分辨率(HD)地图构建和BEV地图分割两个地图构建任务上评估了MapFusion,以展示其多样性和有效性。与现有的最先进方法相比,MapFusion在nuScenes数据集上的HD地图构建任务上实现了3.6%的绝对改进,在BEV地图分割任务上实现了6.2%的绝对改进,这表明我们方法的优势。