LLM2D

摘要

arXiv:2505.07236v1 平台类型:交叉摘要:我们提出了一种基于大规模语言和语言-视觉模型 (LLMs/VLMs) 的可扩展多代理框架 UAV-CodeAgents，用于自主无人机任务生成。该系统利用 ReAct（推理 + 行动）范式来解释卫星图像、地面高层次自然语言指令，并与最少的人类监督协作生成无人机轨迹。核心组件是一个基于视觉的像素指针机制，使其能够在航空图上精确定位语义目标。为了支持实时适应性，我们引入了一个反应性思考循环，允许代理们迭代反思观察，修订任务目标，并在不断变化的环境中动态协调。 UAV-CodeAgents 在涉及工业和环境火灾检测的大规模任务场景中进行了评估。我们的结果表明，较低的解码温度（0.5）能提供更高的规划可靠性并减少执行时间，平均任务生成时间为96.96秒，成功率93%。我们进一步在9,000张注释过的卫星图像上对Qwen2.5VL-7B进行了微调，实现了跨多种视觉类别的强大空间定位能力。为了促进可再现性和未来研究，我们将发布完整的代码库和一个用于基于语言-视觉的无人机规划的新型基准数据集。