LLM2D
具身化检索增强生成:用于检索和生成的通用非参数化具身记忆
Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation
作者: Quanting Xie, So Yeon Min, Tianyi Zhang, Kedi Xu, Aarav Bajaj, Ruslan Salakhutdinov, Matthew Johnson-Roberson, Yonatan Bisk
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2409.18313v4

摘要

机器人探索和学习的潜力无限,但所有这些知识都需要具备可搜索性和可操作性。在语言研究领域,检索增强生成 (RAG) 已成为大规模非参数知识的基石,然而现有技术并不能直接迁移到具身领域,因为具身领域是多模态的,数据高度相关,并且感知需要抽象。为了应对这些挑战,我们引入了具身-RAG框架,该框架使用能够自主构建用于导航和语言生成的层次化知识的非参数记忆系统来增强具身智能体的基础模型。具身-RAG处理各种空间和语义分辨率,涵盖不同的环境和查询类型,无论是针对特定物体还是对环境的整体描述。其核心是,具身-RAG的记忆结构为语义森林,存储不同详细程度的语言描述。这种层次化组织使系统能够高效地生成针对不同机器人平台的上下文相关输出。我们证明了具身-RAG有效地将RAG桥接到机器人领域,成功处理了19个环境中超过200个解释和导航查询,突显了其作为具身智能体通用非参数系统的潜力。