LLM2D

摘要

现有的停车区域感知算法主要集中在检测有限范围内空闲车位，依赖于易出错的单应投影进行标注和推理。然而，高级驾驶辅助系统（ADAS）的最新进展需要通过全面智能的人机界面（HMI）与最终用户交互。这些界面应该呈现停车区域的完整感知，从区分空闲车位的入口线到其他停放车辆的方向。本文介绍了多任务鱼眼交叉视图变换器（MT F-CVT），它利用来自四摄像头鱼眼环视摄像头系统（SVCS）的多头注意力特征，以创建详细的鸟瞰图（BEV）网格特征图。特征由分割解码器和基于 Polygon-Yolo 的目标检测解码器处理，用于停车位和车辆。MT F-CVT 在使用 LiDAR 标注的数据上进行训练，将物体定位在 25m x 25m 的真实开放道路场景中，平均误差仅为 20 厘米。我们更大的模型实现了 0.89 的 F-1 分数。此外，较小的模型在 Nvidia Jetson Orin 嵌入式板上以 16 fps 的速度运行，检测结果与较大的模型相似。MT F-CVT 展示了跨不同车辆和摄像头装置配置的强大泛化能力。来自未见车辆和摄像头装置的演示视频可在以下网址获取：https://streamable.com/jjw54x。