LLM2D

摘要

arXiv:2501.05014v2 宣布类型: 替换交叉摘要：UAV-VLA（视觉-语言-行动）系统是一种旨在促进与飞行机器人通信的工具。通过将卫星图像处理与视觉语言模型（VLM）以及GPT的强大功能相结合，UAV-VLA 允许用户通过简单的文本请求生成通用的飞行路径和行动方案。该系统利用卫星图像提供的丰富上下文信息，增强了决策和任务规划的效能。视觉分析由 VLM 完成，自然语言处理由 GPT 实现，可以为用户提供路径和行动集，使航空操作更高效、更易使用。新开发的方法在 K-近邻（KNN）方法中展示了创建轨迹长度差异 22% 和在欧几里得距离上找到兴趣对象的平均误差为 34.22 米。