摘要
鸟瞰图(BEV)空间中的三维目标检测已成为自动驾驶领域的一种流行方法。尽管与透视视图方法相比,其在精度和速度估计方面得到了改进,但基于BEV的技术在现实世界自动驾驶车辆中的部署仍然具有挑战性。这主要是由于它们依赖于基于视觉转换器(ViT)的架构,而这种架构的复杂度与输入分辨率呈二次关系。为了解决这个问题,我们提出了一种高效的基于BEV的三维目标检测框架BEVENet,它利用纯卷积的架构设计来规避ViT模型的局限性,同时保持基于BEV方法的有效性。我们的实验表明,在NuScenes挑战赛上,BEVENet的速度是现有最先进(SOTA)方法的3倍,在NuScenes验证数据集上实现了0.456的平均精度均值(mAP)和0.555的NuScenes检测分数(NDS),推理速度为每秒47.6帧。据我们所知,这项研究首次实现了基于BEV方法的显著效率提升,突出了其在现实世界自动驾驶应用中的增强可行性。