LLM2D

摘要

在任意视角下进行鲁棒的目标检测和跟踪对于自动驾驶技术的发展来说是一个具有挑战性但又必不可少的课题。随着无人驾驶功能车辆的需求不断增长，近场场景理解成为低速自动驾驶领域的重要研究课题。由于驾驶条件的复杂性和近距离障碍物（如盲区和高遮挡）的多样性，近场环境的感知能力仍然不如其更远处的对应物。为了进一步增强无人驾驶车辆的智能能力，本文构建了一个基于三种主要类型的传感器（摄像头、激光雷达和鱼眼镜头）的多模态数据采集平台，该平台支持灵活的传感器配置，能够为自车提供动态视角，包括全局视角和局部视角。同时，建立了一个名为 RoboSense 的大型多传感器数据集，以促进近场场景理解。RoboSense 包含超过 133K 个同步数据，其中包含 1.4M 个 3D 边界框和 ID，在完整的 $360^{\circ}$ 视角内进行标注，形成跨越 7.6K 个时间序列的 216K 个轨迹。与之前的单车数据集（如 KITTI 和 nuScenes）相比，它在 5 米范围内对近场障碍物的标注数量分别增加了 $270\times$ 和 $18\times$。此外，我们为近场 3D 感知和预测指标定义了一个新的匹配标准。基于 RoboSense，我们制定了 6 个流行的任务来促进未来相关研究的发展，其中也提供了详细的数据分析和基准。代码和数据集将在 https://github.com/suhaisheng/RoboSense 上发布。