摘要
arXiv:2502.03450v1 宣布类型: cross
摘要: 场景图已 emerge 作为一种结构化且可序列化的表现形式,用于大型语言模型(LLMs)进行基于空间的推理。在此工作中,我们提出了 SG-RwR,这是一种基于场景图推理和规划的 Schema-Guided Retrieve-while-Reason 框架。我们的方法采用两个合作的代码编写 LLM 代理:一个是(1)推理器,用于任务规划和信息查询生成,另一个是(2)检索器,根据查询提取相应的图信息。两个代理进行迭代协作,实现序贯推理和对图信息的自适应关注。与以往工作不同的是,两个代理仅被提示场景图模式而非完整的图数据,这通过限制输入 token 减少了幻觉,并促使推理器生成抽象的推理轨迹。根据轨迹,检索器在理解模式的基础上,以编程方式查询场景图数据,允许动态的全局关注图,从而增强推理和检索之间的对齐。通过在多个仿真环境中进行实验,我们展示了我们的框架在数值问答和规划任务中超越了现有的基于 LLM 的方法,并且即使在没有代理级示范的情况下,也可以从任务级别的少量示例中受益。项目代码将被发布。