摘要
arXiv:2505.08765v2 任务类型: replace-cross
摘要: 城市环境中空域视觉物体搜索(Aerial Visual Object Search, AVOS)任务要求无人机使用视觉和文本线索自主搜索和识别目标对象,而无需外部指导。现有的方法在复杂的城市环境中遇到困难,主要是因为冗余的语义处理、相似对象的区分以及探索与利用之间的困境。为了弥合这一差距并支持AVOS任务,我们介绍了CityAVOS,这是首个用于自主搜索常见城市物体的标准数据集。该数据集包括六种类别、2,420个不同难度级别的任务,使UAV代理的搜索能力能够得到全面评估。为了解决AVOS任务,我们还提出了PRPSearcher(感知-推理-规划搜索者),这是一种使用多模态大型语言模型(MMLMs)驱动的全新代理方法,模拟了人类三层认知。具体而言,PRPSearcher 构建了三个专门的地图:一个基于动态语义地图增强的时空感知;一个基于语义吸引力值的目标推理的3D认知地图;一个3D不确定地图,用于平衡探索与利用的搜索。此外,我们的方法还包含了一个去噪机制,以减轻相似对象的干扰,并利用了启发式促进思考(IPT)的提示机制进行自适应动作规划。在CityAVOS上的实验结果表明,PRPSearcher 在成功率和搜索效率方面均优于现有基线(平均:+37.69%的成功率,+28.96%的搜索路径长度,-30.69%的测绘面积,-46.40%的不准确性)。尽管前景看好,但与人类的性能差距突显了AVOS任务中更好的语义推理和空间探索能力的需求。本项工作为未来在具身目标搜索方面的改进奠定了基础。数据集和源代码可从https://anonymous.4open.science/r/CityAVOS-3DF8获取。