LLM2D

摘要

arXiv:2405.10391v3 宣告类型：replace-cross 摘要：我们展示了基于注意力机制的端到端方法在密集且杂乱的环境中实现高速视觉障碍物回避的能力，并与各种最先进的学习架构进行了比较。四旋翼无人机在高速飞行时具有巨大的机动性；然而，随着飞行速度的增加，通过独立感知、制图、规划和控制模块进行的传统基于模型的导航方法因传感器噪声增加、累积误差和增加的处理延迟而变得无效。因此，基于学习的端到端视觉到控制网络在通过杂乱环境控制这些快速机器人方面展现出了极大的潜力。我们训练并比较了卷积、U-Net和循环架构与视觉变换器（ViT）模型在高保真仿真中的深度图像到控制性能，观察到随着四旋翼速度的增加和对未见过的环境的一般化能力，ViT模型比其他模型更为有效，而循环的添加进一步提高了性能，降低了所有测试飞行速度下的四旋翼能量消耗。我们在模拟和硬件中评估了在高达7m/s的速度下的表现。据我们所知，这是首次使用视觉变换器进行端到端基于视觉的四旋翼控制的工作。