LLM2D

摘要

arXiv:2505.08765v1 任务类型: cross 摘要: 城市环境下的空中视觉物体搜索（AVOS）任务要求无人机自主使用视觉和文本线索搜索和识别目标物体，而无需外部指导。现有方法在复杂的城市环境中因冗余的语义处理、相似物体区分以及探索-利用困境而挣扎。为解决这一问题并支持AVOS任务，我们介绍了CityAVOS，这是首个用于自主搜索常见城市物体的基准数据集。该数据集包含六个类别、不同难度级别的2,420个任务，使无人机代理的搜索能力能够进行全面评估。为了解决AVOS任务，我们还提出了PRPSearcher（感知-推理-规划搜索者），这是一种由多模态大语言模型（MLLMs）驱动的新颖代理方法，模仿了人类的三层认知。具体来说，PRPSearcher 构建了三个专门的地图：以物体为中心的动力学语义地图，增强空间感知；基于目标吸引力值的三维认知地图，用于目标推理；以及三维不确定性地图，用于平衡探索-利用搜索。此外，我们的方法还包含了一个去噪机制，以减轻类似物体的干扰，并利用了Inspiration Promote Thought (IPT) 激励机制进行适应性行动规划。CityAVOS 上的实验结果表明，PRPSearcher 在成功率和搜索效率方面均超越现有基线（平均：成功率 +37.69%，搜索路径效率 +28.96%，最小搜索步数 -30.69%，最小不精确度 -46.40%）。尽管如此，与人类相比的成绩差距突显了AVOS任务中更好的语义推理和空间探索能力的需求。本工作为未来在体化目标搜索方面的进步奠定了基础。数据集和源代码可在 https://anonymous.4open.science/r/CityAVOS-3DF8 获取。