摘要
arXiv:2505.08765v1 任务类型: cross
摘要: 城市环境下的空中视觉物体搜索(AVOS)任务要求无人机自主使用视觉和文本线索搜索和识别目标物体,而无需外部指导。现有方法在复杂的城市环境中因冗余的语义处理、相似物体区分以及探索-利用困境而挣扎。为解决这一问题并支持AVOS任务,我们介绍了CityAVOS,这是首个用于自主搜索常见城市物体的基准数据集。该数据集包含六个类别、不同难度级别的2,420个任务,使无人机代理的搜索能力能够进行全面评估。为了解决AVOS任务,我们还提出了PRPSearcher(感知-推理-规划搜索者),这是一种由多模态大语言模型(MLLMs)驱动的新颖代理方法,模仿了人类的三层认知。具体来说,PRPSearcher 构建了三个专门的地图:以物体为中心的动力学语义地图,增强空间感知;基于目标吸引力值的三维认知地图,用于目标推理;以及三维不确定性地图,用于平衡探索-利用搜索。此外,我们的方法还包含了一个去噪机制,以减轻类似物体的干扰,并利用了Inspiration Promote Thought (IPT) 激励机制进行适应性行动规划。CityAVOS 上的实验结果表明,PRPSearcher 在成功率和搜索效率方面均超越现有基线(平均:成功率 +37.69%,搜索路径效率 +28.96%,最小搜索步数 -30.69%,最小不精确度 -46.40%)。尽管如此,与人类相比的成绩差距突显了AVOS任务中更好的语义推理和空间探索能力的需求。本工作为未来在体化目标搜索方面的进步奠定了基础。数据集和源代码可在 https://anonymous.4open.science/r/CityAVOS-3DF8 获取。