LLM2D

摘要

基于自我视角的可靠具身感知对于智能移动代理的自主导航技术而言极具挑战性，却又至关重要。随着社会机器人的需求日益增长，近场场景理解成为在拥挤和非结构化环境中与导航相关的自我中心感知任务领域的重要研究课题。由于环境条件复杂以及由于截断和遮挡导致的周围障碍物难以识别，在这种情况下感知能力仍然较差。为了进一步增强移动机器人的智能化水平，本文构建了一个基于三种主要传感器（摄像头、激光雷达和鱼眼镜头）的自我中心多传感器数据采集平台，该平台支持灵活的传感器配置，能够实现从自我视角动态视野，捕捉近处或远处区域。同时，构建了一个名为RoboSense的大规模多模态数据集，以促进自我中心机器人感知。具体而言，RoboSense包含超过13.3万个同步数据，其中包含在全360°视野中标注的140万个3D边界框和ID，形成了跨7600个时间序列的21.6万条轨迹。其周围近距离障碍物的标注数量分别是KITTI和nuScenes等用于自动驾驶场景的先前数据集的270倍和18倍。此外，我们定义了一种新的近场3D感知匹配准则和预测指标。基于RoboSense，我们制定了6项流行的任务以促进未来的研究发展，并相应地提供了详细的分析以及基准。为保护隐私，已采取数据脱敏措施。