LLM2D

摘要

arXiv:2504.05170v1 类型: cross 摘要：基于深度神经网络的多模态3D物体检测确实取得了显著进展。然而，仍面临着2D图像和3D点云提取特征之间的尺度和空间信息对齐问题所带来的挑战。现有方法通常在单一阶段聚合多模态特征。然而，多阶段跨模态特征的利用对于检测不同尺度的物体至关重要。因此，这些方法往往难以有效地整合不同尺度和模态的特征，从而限制了检测的准确性。此外，现有方法中常用的耗时的查询-键-值（QKV）基于的跨注意力操作有助于通过捕捉非局部上下文来推理物体的位置和存在性。然而，这种方法往往会增加计算复杂性。为了解决这些挑战，我们提出了SSLFusion，一种新颖的尺度与空间对齐的隐空间融合模型，包括尺度对齐融合策略（SAF）、3D到2D空间对齐模块（SAM）以及隐空间跨模态融合模块（LFM）。SAF 通过在多个级别上聚合图像和点云特征来缓解模态间的尺度对齐问题。SAM 旨在通过将3D坐标信息整合到2D图像特征中，减少图像特征和点云特征之间的跨模态差距。此外，LFM 在隐空间中捕捉跨模态的非局部上下文，而不使用基于QKV的注意力操作，从而减轻计算复杂性。在KITTIA和DENSE数据集上的实验表明，我们的SSLFusion优于现有方法。相比KITTI测试集的中等水平上最先进的方法GraphAlign，我们的方法在3D AP上取得了绝对增益2.15%。