LLM2D

摘要

arXiv:2504.09583v1 声称类型: 交叉摘要：无人驾驶飞行器（UAV）在物流运输和灾难响应等动态环境中越来越重要。然而，当前的任务往往依赖于人类操作员来监控空中视频并做出操作决策。这种人机协作模式在效率和适应性方面存在显著的局限性。在本文中，我们提出了AirVista-II——一种端到端的自主系统，旨在使具身无人机能够在动态场景中实现通用语义理解和推理。该系统集成了基于代理的任务识别和调度、多模态感知机制以及针对各种时间场景量身定制的关键帧提取策略，能够高效地捕捉关键场景信息。实验结果表明，在零样本设置下，提出的系统在多样化的基于UAV的动态场景中实现了高质量的语义理解。