LLM2D
UAV-CodeAgents:通过多智能体ReAct和视知觉推理实现可扩展的无人机任务规划
UAV-CodeAgents: Scalable UAV Mission Planning via Multi-Agent ReAct and Vision-Language Reasoning
作者: Oleg Sautenkov, Yasheerah Yaqoot, Muhammad Ahsan Mustafa, Faryal Batool, Jeffrin Sam, Artem Lykov, Chih-Yung Wen, Dzmitry Tsetserukou
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.07236v1

摘要

arXiv:2505.07236v1 平台类型:交叉 摘要:我们提出了一种基于大规模语言和语言-视觉模型 (LLMs/VLMs) 的可扩展多代理框架 UAV-CodeAgents,用于自主无人机任务生成。该系统利用 ReAct(推理 + 行动)范式来解释卫星图像、地面高层次自然语言指令,并与最少的人类监督协作生成无人机轨迹。核心组件是一个基于视觉的像素指针机制,使其能够在航空图上精确定位语义目标。为了支持实时适应性,我们引入了一个反应性思考循环,允许代理们迭代反思观察,修订任务目标,并在不断变化的环境中动态协调。 UAV-CodeAgents 在涉及工业和环境火灾检测的大规模任务场景中进行了评估。我们的结果表明,较低的解码温度(0.5)能提供更高的规划可靠性并减少执行时间,平均任务生成时间为96.96秒,成功率93%。我们进一步在9,000张注释过的卫星图像上对Qwen2.5VL-7B进行了微调,实现了跨多种视觉类别的强大空间定位能力。为了促进可再现性和未来研究,我们将发布完整的代码库和一个用于基于语言-视觉的无人机规划的新型基准数据集。