LLM2D

摘要

为了使自主机器人能够在城市环境中可靠地导航，机器人必须能够根据对场景的语义理解，从图像中识别出语义上可穿越的地形。这种推理能力基于语义可穿越性，通常使用针对测试域进行微调的语义分割模型来实现。这种微调过程通常涉及使用目标机器人进行手动数据收集，并由人工标注人员进行标注，这非常昂贵且无法扩展。在本研究中，我们提出了一种使用自拍视频和自动化标注过程来训练语义可穿越性估计器的有效方法。自拍视频是从安装在行人胸前的摄像机收集的。用于训练语义可穿越性估计器的训练数据集随后通过使用最新的图像分割基础模型及其提示技术，从每个视频帧中提取语义可穿越区域来自动生成。在涵盖各种城市场景，跨多个国家和城市拍摄的视频上进行的大量实验表明，所提出的标注方法具有很高的可扩展性和泛化能力。此外，性能分析和自主机器人导航的真实世界部署表明，经过训练的语义可穿越性估计器具有高度准确性，能够处理不同的相机视角，计算量轻，并且适用于真实世界。总结视频可在 https://youtu.be/EUVoH-wA-lA 观看。