摘要
arXiv:2502.02054v1 agility
摘要:本文介绍了一种基于学习的视觉规划器,用于在复杂环境中实现敏捷无人机飞行。提出的规划器可以在毫秒内生成无碰撞航点,使无人机能够在复杂环境中进行敏捷机动,而无需构建独立的感知、建图和规划模块。基于学习的方法,如行为克隆(BC)和强化学习(RL),在视觉导航中显示出良好的性能,但仍面临固有的限制。行为克隆由于专家模仿有限而导致累积误差,而强化学习在奖励函数设计和样本效率方面存在困难。为了克服这些限制,本文提出了一种基于逆强化学习(IRL)的框架,用于高速视觉导航。通过利用逆强化学习,可以减少与模拟环境的交互次数,并在保持RL策略鲁棒性的前提下,提高处理高维空间的能力。基于运动原型的路径规划算法从多种环境收集专家数据集,并附带优先级地图数据,确保全面的场景覆盖。利用来自代理与模拟环境互动中收集到的专家数据集和学习者数据集,学习出鲁棒的奖励函数和策略。尽管所提出的方法仅在模拟环境中进行训练,但可以直接应用于实际场景,无需额外的训练或调整。所提出的方法在模拟和实际场景中,包括森林和各种结构中均得到了验证。经过训练的策略在实际飞行实验中的平均速度为7 m/s,最大速度为8.8 m/s。据我们所知,这是首次成功将逆强化学习框架应用于高速视觉导航无人机工作的研究。