摘要
机器人探索和学习的能力没有极限,但所有这些知识都需要可搜索和可操作。在语言研究领域,检索增强生成 (RAG) 已成为大规模非参数知识的基石,然而现有的技术无法直接应用于具身领域,因为具身领域是多模态的,数据高度相关,并且感知需要抽象。
为了解决这些挑战,我们引入了 Embodied-RAG,这是一个框架,它通过一个非参数记忆系统增强了具身智能体的基础模型,该系统能够自主地构建用于导航和语言生成的层次化知识。Embodied-RAG 处理跨越不同环境和查询类型的各种空间和语义分辨率,无论是针对特定对象还是环境的整体描述。Embodied-RAG 的记忆的核心结构是一个语义森林,存储不同详细程度的语言描述。这种层次化组织允许系统在不同的机器人平台上高效地生成上下文相关的输出。我们证明了 Embodied-RAG 有效地将 RAG 桥接到机器人领域,成功地处理了跨越 19 个环境的 200 多个解释和导航查询,突出了其作为具身智能体的通用非参数系统的潜力。