摘要
arXiv:2404.11803v2 公告类型: 替换-交叉 摘要: 自动驾驶需要对环境进行精确的表示。提高精度的策略之一是融合来自多个传感器的数据。学习到的鸟瞰图(BEV)编码器通过将来自各个传感器的数据映射到一个联合的潜在空间中,可以实现这一目标。对于成本高效的纯摄像头系统,这提供了一种有效机制,可以将来自多个视角不同的摄像头的数据进行融合。通过在时间上聚合传感器信息,精度可以进一步提高。这对于单目摄像头系统尤为重要,以弥补缺乏显式深度和速度测量的不足。因此,开发出的BEV编码器的有效性关键取决于用于聚合时间信息的算子和所使用的潜在表示空间。我们分析了文献中提出的BEV编码器,并比较了它们的有效性,量化了聚合算子和潜在表示的影响。尽管大多数现有方法在图像或BEV潜在空间中聚合时间信息,但我们的分析和性能比较表明,这些潜在表示具有互补的优势。因此,我们开发了一种新的时间BEV编码器,TempBEV,它整合了来自两个潜在空间的时间聚合信息。我们将随后的图像帧视为时间上的立体,并利用光流估计的方法进行时间立体编码。在NuScenes数据集上的实证评估显示,TempBEV在3D目标检测和BEV分割方面显著优于基线。消融实验揭示了图像和BEV潜在空间中联合时间聚合的强大协同效应。这些结果表明了我们方法的整体有效性,并为在图像和BEV潜在空间中聚合时间信息提供了强有力的支持。