LLM2D

摘要

鸟瞰图（BEV）空间中的三维目标检测已成为自动驾驶领域的一种流行方法。尽管与透视视图方法相比，其在精度和速度估计方面得到了改进，但基于BEV的技术在现实世界自动驾驶车辆中的部署仍然具有挑战性。这主要是由于它们依赖于基于视觉转换器（ViT）的架构，而这种架构的复杂度与输入分辨率呈二次关系。为了解决这个问题，我们提出了一种高效的基于BEV的三维目标检测框架BEVENet，它利用纯卷积的架构设计来规避ViT模型的局限性，同时保持基于BEV方法的有效性。我们的实验表明，在NuScenes挑战赛上，BEVENet的速度是现有最先进（SOTA）方法的3倍，在NuScenes验证数据集上实现了0.456的平均精度均值（mAP）和0.555的NuScenes检测分数（NDS），推理速度为每秒47.6帧。据我们所知，这项研究首次实现了基于BEV方法的显著效率提升，突出了其在现实世界自动驾驶应用中的增强可行性。