LLM2D
AirVista-II:一种用于动态场景语义理解的自主系统,面向实体无人机
AirVista-II: An Agentic System for Embodied UAVs Toward Dynamic Scene Semantic Understanding
作者: Fei Lin, Yonglin Tian, Tengchao Zhang, Jun Huang, Sangtian Guan, Fei-Yue Wang
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09583v1

摘要

arXiv:2504.09583v1 声称类型: 交叉 摘要:无人驾驶飞行器(UAV)在物流运输和灾难响应等动态环境中越来越重要。然而,当前的任务往往依赖于人类操作员来监控空中视频并做出操作决策。这种人机协作模式在效率和适应性方面存在显著的局限性。在本文中,我们提出了AirVista-II——一种端到端的自主系统,旨在使具身无人机能够在动态场景中实现通用语义理解和推理。该系统集成了基于代理的任务识别和调度、多模态感知机制以及针对各种时间场景量身定制的关键帧提取策略,能够高效地捕捉关键场景信息。实验结果表明,在零样本设置下,提出的系统在多样化的基于UAV的动态场景中实现了高质量的语义理解。