LLM2D

摘要

arXiv:2502.03450v1 宣布类型: cross 摘要: 场景图已 emerge 作为一种结构化且可序列化的表现形式，用于大型语言模型（LLMs）进行基于空间的推理。在此工作中，我们提出了 SG-RwR，这是一种基于场景图推理和规划的 Schema-Guided Retrieve-while-Reason 框架。我们的方法采用两个合作的代码编写 LLM 代理：一个是（1）推理器，用于任务规划和信息查询生成，另一个是（2）检索器，根据查询提取相应的图信息。两个代理进行迭代协作，实现序贯推理和对图信息的自适应关注。与以往工作不同的是，两个代理仅被提示场景图模式而非完整的图数据，这通过限制输入 token 减少了幻觉，并促使推理器生成抽象的推理轨迹。根据轨迹，检索器在理解模式的基础上，以编程方式查询场景图数据，允许动态的全局关注图，从而增强推理和检索之间的对齐。通过在多个仿真环境中进行实验，我们展示了我们的框架在数值问答和规划任务中超越了现有的基于 LLM 的方法，并且即使在没有代理级示范的情况下，也可以从任务级别的少量示例中受益。项目代码将被发布。