摘要
arXiv:2501.05014v2 宣布类型: 替换交叉
摘要:UAV-VLA(视觉-语言-行动)系统是一种旨在促进与飞行机器人通信的工具。通过将卫星图像处理与视觉语言模型(VLM)以及GPT的强大功能相结合,UAV-VLA 允许用户通过简单的文本请求生成通用的飞行路径和行动方案。该系统利用卫星图像提供的丰富上下文信息,增强了决策和任务规划的效能。视觉分析由 VLM 完成,自然语言处理由 GPT 实现,可以为用户提供路径和行动集,使航空操作更高效、更易使用。新开发的方法在 K-近邻(KNN)方法中展示了创建轨迹长度差异 22% 和在欧几里得距离上找到兴趣对象的平均误差为 34.22 米。