摘要
arXiv:2502.12532v2 任务类型: 替换
摘要:基于体感的问答(EQA)主要集中在室内环境上,而城市环境中的复杂性,涵盖环境、行为和感知等方面,尚未得到充分探索。为了解决这一缺口,我们引入了CityEQA,这是一种新的任务,其中体感代理通过在动态城市空间中的积极探索来回答开放式词汇的问题。为了支持这一任务,我们介绍了CityEQA-EC,这是第一个基准数据集,其中包含1,412个人注释的任务,涵盖了六类内容,并基于一个现实的3D城市模拟器。此外,我们提出了一种名为Planner-Manager-Actor (PMA)的新代理,适用于CityEQA。PMA 允许进行长期规划和层次任务执行:规划师将问答问题分解成子任务,管理者在过程控制期间维护一个基于对象的认知地图以进行空间推理,而专门的执行者处理导航、探索和收集子任务。实验结果显示,PMA 达到了60.7%的人类水平回答准确率,显著优于基于前沿的基本模型。虽然表现令人鼓舞,但与人类的性能差距突显了在CityEQA中增强视觉推理的需求。这项工作为未来城市空间智能的发展铺平了道路。数据集和代码可在 https://github.com/BiluYong/CityEQA.git 获取。