摘要
机器人探索和学习的范围无极限,但所有这些知识都需要可搜索和可操作。在语言研究领域,检索增强生成 (RAG) 已成为大规模非参数知识的“工作马”,但现有技术无法直接迁移到具身领域,因为具身领域是多模态的,数据高度相关,感知需要抽象。
为了应对这些挑战,我们引入了 Embodied-RAG,这是一个框架,它使用非参数记忆系统增强了具身代理的基础模型,该系统能够自主构建用于导航和语言生成的层次化知识。Embodied-RAG 处理跨不同环境和查询类型的各种空间和语义分辨率,无论针对特定对象还是环境的整体描述。Embodied-RAG 的核心是,其记忆结构为语义森林,存储不同详细程度的语言描述。这种层次化组织使系统能够在不同机器人平台上有效地生成上下文敏感的输出。我们证明了 Embodied-RAG 有效地将 RAG 桥接到机器人领域,成功处理了跨 19 个环境的 200 多个解释和导航查询,突出了其作为具身代理通用非参数系统的潜力。