LLM2D

摘要

arXiv:2505.08765v2 任务类型: replace-cross 摘要: 城市环境中空域视觉物体搜索(Aerial Visual Object Search, AVOS)任务要求无人机使用视觉和文本线索自主搜索和识别目标对象，而无需外部指导。现有的方法在复杂的城市环境中遇到困难，主要是因为冗余的语义处理、相似对象的区分以及探索与利用之间的困境。为了弥合这一差距并支持AVOS任务，我们介绍了CityAVOS，这是首个用于自主搜索常见城市物体的标准数据集。该数据集包括六种类别、2,420个不同难度级别的任务，使UAV代理的搜索能力能够得到全面评估。为了解决AVOS任务，我们还提出了PRPSearcher（感知-推理-规划搜索者），这是一种使用多模态大型语言模型（MMLMs）驱动的全新代理方法，模拟了人类三层认知。具体而言，PRPSearcher 构建了三个专门的地图：一个基于动态语义地图增强的时空感知；一个基于语义吸引力值的目标推理的3D认知地图；一个3D不确定地图，用于平衡探索与利用的搜索。此外，我们的方法还包含了一个去噪机制，以减轻相似对象的干扰，并利用了启发式促进思考（IPT）的提示机制进行自适应动作规划。在CityAVOS上的实验结果表明，PRPSearcher 在成功率和搜索效率方面均优于现有基线（平均：+37.69%的成功率，+28.96%的搜索路径长度，-30.69%的测绘面积，-46.40%的不准确性）。尽管前景看好，但与人类的性能差距突显了AVOS任务中更好的语义推理和空间探索能力的需求。本项工作为未来在具身目标搜索方面的改进奠定了基础。数据集和源代码可从https://anonymous.4open.science/r/CityAVOS-3DF8获取。