LLM2D
用于端到端视觉避障的视觉Transformer
Vision Transformers for End-to-End Vision-Based Quadrotor Obstacle Avoidance
作者: Anish Bhattacharya, Nishanth Rao, Dhruv Parikh, Pratik Kunapuli, Yuwei Wu, Yuezhan Tao, Nikolai Matni, Vijay Kumar
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2405.10391v2

摘要

我们展示了一种基于注意力的端到端方法在密集、杂乱的环境中进行高速视觉引导的四旋翼避障的能力,并将其与各种最先进的学习架构进行了比较。四旋翼无人机 (UAV) 在高速飞行时具有极强的机动性;然而,随着飞行速度的提高,传统的基于模型的导航方法(通过独立的感知、地图构建、规划和控制模块)由于传感器噪声增加、误差累积和处理延迟增加而失效。因此,基于学习的端到端视觉到控制网络已显示出在这些快速机器人穿越杂乱环境的在线控制方面具有巨大潜力。我们在高保真模拟中训练并比较了卷积、U-Net 和循环架构与视觉转换器 (ViT) 模型,观察到 ViT 模型在四旋翼速度增加以及泛化到未见环境时比其他模型更有效,而添加循环进一步提高了性能,同时降低了所有测试飞行速度下的四旋翼能量消耗。我们在模拟和硬件中评估了高达 7m/s 的速度下的性能。据我们所知,这是第一个将视觉转换器用于端到端视觉引导的四旋翼控制的工作。