LLM2D
城市场景中的层次化LLM代理:一个基于城市空间的嵌体问答基准
CityEQA: A Hierarchical LLM Agent on Embodied Question Answering Benchmark in City Space
作者: Yong Zhao, Kai Xu, Zhengqiu Zhu, Yue Hu, Zhiheng Zheng, Yingfeng Chen, Yatai Ji, Chen Gao, Yong Li, Jincai Huang
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12532v1

摘要

arXiv:2502.12532v1 任务类型: 新 摘要: 体感问答(EQA)主要集中在室内环境,而城市环境中的复杂性,包括环境、行动和感知,还没有得到充分探索。为了弥合这一差距,我们引入了CityEQA,这是一个新的任务,其中的体感代理通过在动态城市空间中的主动探索来回答开放词汇的问题。为了支持这个任务,我们提出了CityEQA-EC,这是第一个基准数据集,包含1,412个人工标注的任务,涵盖了六个类别,并基于一个现实的3D城市模拟器。此外,我们提出了Planner-Manager-Actor(PMA),一种专为CityEQA设计的新型代理。PMA支持长期规划和分层的任务执行:规划者将问答问题分解为子任务,管理者在过程中保持以对象为中心的认知地图进行空间推理,而专业的演员处理导航、探索和收集子任务。实验结果显示,PMA实现了60.7%的人类级回答准确率,显著优于现有的基准方法。尽管如此,与人类的表现差距表明,CityEQA中增强的视觉推理需求。这项工作为未来城市空间智能的发展铺平了道路。数据集和代码可在https://github.com/BiluYong/CityEQA.git获取。