LLM2D
基于多任务鱼眼跨视角Transformer的增强停车感知
Enhanced Parking Perception by Multi-Task Fisheye Cross-view Transformers
作者: Antonyo Musabini, Ivan Novikov, Sana Soula, Christel Leonet, Lihao Wang, Rachid Benmokhtar, Fabian Burger, Thomas Boulay, Xavier Perrotton
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2408.12575v2

摘要

现有的停车区域感知算法主要集中在检测有限范围内空闲车位,依赖于易出错的单应投影进行标注和推理。然而,高级驾驶辅助系统(ADAS)的最新进展需要通过全面智能的人机界面(HMI)与最终用户交互。这些界面应该呈现停车区域的完整感知,从区分空闲车位的入口线到其他停放车辆的方向。本文介绍了多任务鱼眼交叉视图变换器(MT F-CVT),它利用来自四摄像头鱼眼环视摄像头系统(SVCS)的多头注意力特征,以创建详细的鸟瞰图(BEV)网格特征图。特征由分割解码器和基于 Polygon-Yolo 的目标检测解码器处理,用于停车位和车辆。MT F-CVT 在使用 LiDAR 标注的数据上进行训练,将物体定位在 25m x 25m 的真实开放道路场景中,平均误差仅为 20 厘米。我们更大的模型实现了 0.89 的 F-1 分数。此外,较小的模型在 Nvidia Jetson Orin 嵌入式板上以 16 fps 的速度运行,检测结果与较大的模型相似。MT F-CVT 展示了跨不同车辆和摄像头装置配置的强大泛化能力。来自未见车辆和摄像头装置的演示视频可在以下网址获取:https://streamable.com/jjw54x。