LLM2D
UAV-VLA:大型规模航拍任务生成的视觉-语言-动作系统
UAV-VLA: Vision-Language-Action System for Large Scale Aerial Mission Generation
作者: Oleg Sautenkov, Yasheerah Yaqoot, Artem Lykov, Muhammad Ahsan Mustafa, Grik Tadevosyan, Aibek Akhmetkazy, Miguel Altamirano Cabrera, Mikhail Martynov, Sausar Karaf, Dzmitry Tsetserukou
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2501.05014v2

摘要

arXiv:2501.05014v2 宣布类型: 替换交叉 摘要:UAV-VLA(视觉-语言-行动)系统是一种旨在促进与飞行机器人通信的工具。通过将卫星图像处理与视觉语言模型(VLM)以及GPT的强大功能相结合,UAV-VLA 允许用户通过简单的文本请求生成通用的飞行路径和行动方案。该系统利用卫星图像提供的丰富上下文信息,增强了决策和任务规划的效能。视觉分析由 VLM 完成,自然语言处理由 GPT 实现,可以为用户提供路径和行动集,使航空操作更高效、更易使用。新开发的方法在 K-近邻(KNN)方法中展示了创建轨迹长度差异 22% 和在欧几里得距离上找到兴趣对象的平均误差为 34.22 米。