LLM2D

摘要

arXiv:2502.02054v1 类型: cross 摘要：本文介绍了一种基于学习的视觉规划器，用于在复杂环境中进行敏捷无人机飞行。所提出的方法能够在毫秒级生成无碰撞航点，使无人机能够在复杂环境中执行敏捷机动而无需单独构建感知、建图和规划模块。基于学习的方法，如行为克隆（BC）和强化学习（RL），在视觉导航方面显示出了有希望的性能，但仍面临固有的局限性。行为克隆由于专家模仿有限，容易累积错误，而强化学习则在奖励函数设计和样本效率方面存在困难。为解决这些局限性，本文提出了一种基于逆强化学习（IRL）的框架，用于高速视觉导航。通过利用IRL，可以减少与其他仿真环境的交互次数，并提高处理高维空间的能力，同时保持RL策略的鲁棒性。基于运动原语的路径规划算法收集了来自多种环境的带有优先级地图数据的专家数据集，确保了场景的全面覆盖。通过利用来自代理与仿真环境交互而收集的获得的专家数据集和学习者数据集，实现了多样化状态下鲁棒的奖励函数和策略。尽管该方法仅在仿真环境中进行训练，但可以在无需额外训练或调优的情况下直接应用于现实场景。提出的方例方法在仿真环境和现实环境中均进行了验证，包括森林和各种结构场景。经过训练的策略在实际飞行实验中实现了平均速度7 m/s和最高速度8.8 m/s。据我们所知，这是首次成功将IRL框架应用于无人机高速视觉导航的工作。