LLM2D
面向自动驾驶的鸟瞰图空间高效三维目标检测:一种纯卷积方法
Towards Efficient 3D Object Detection in Bird's-Eye-View Space for Autonomous Driving: A Convolutional-Only Approach
作者: Yuxin Li, Qiang Han, Mengying Yu, Yuxin Jiang, Chaikiat Yeo, Yiheng Li, Zihang Huang, Nini Liu, Hsuanhan Chen, Xiaojun Wu
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2312.00633v2

摘要

鸟瞰图(BEV)空间中的三维目标检测已成为自动驾驶领域的一种流行方法。尽管与透视视图方法相比,其在精度和速度估计方面得到了改进,但基于BEV的技术在现实世界自动驾驶车辆中的部署仍然具有挑战性。这主要是由于它们依赖于基于视觉转换器(ViT)的架构,而这种架构的复杂度与输入分辨率呈二次关系。为了解决这个问题,我们提出了一种高效的基于BEV的三维目标检测框架BEVENet,它利用纯卷积的架构设计来规避ViT模型的局限性,同时保持基于BEV方法的有效性。我们的实验表明,在NuScenes挑战赛上,BEVENet的速度是现有最先进(SOTA)方法的3倍,在NuScenes验证数据集上实现了0.456的平均精度均值(mAP)和0.555的NuScenes检测分数(NDS),推理速度为每秒47.6帧。据我们所知,这项研究首次实现了基于BEV方法的显著效率提升,突出了其在现实世界自动驾驶应用中的增强可行性。