LLM2D

摘要

机器人探索和学习的范围无上限，但所有这些知识都需要可搜索和可操作。在语言研究中，检索增强生成 (RAG) 已经成为大规模非参数知识的支柱，然而现有的技术不能直接转移到具身领域，该领域是多模态的，数据高度相关，感知需要抽象。为了应对这些挑战，我们引入了具身-RAG，这是一个框架，它通过一个非参数记忆系统增强了具身智能体的基础模型，该系统能够自主构建用于导航和语言生成的层次化知识。具身-RAG 处理各种环境和查询类型中的各种空间和语义分辨率，无论是对特定对象的查询还是对环境整体描述的查询。具身-RAG 的记忆的核心是一个语义森林，它以不同级别的细节存储语言描述。这种层次化组织使系统能够高效地跨不同机器人平台生成上下文敏感的输出。我们证明了具身-RAG 有效地将 RAG 桥接到机器人领域，成功地处理了跨 19 个环境的 200 多个解释和导航查询，突出了其作为具身智能体通用非参数系统的潜力。