LLM2D

摘要

大型语言模型 (LLM) 已经成为机器人利用常识推理生成任务计划的工具。为了让 LLM 生成可执行的计划，必须提供场景上下文，通常通过地图。最近的工作已经从具有固定语义类的显式地图转变为基于可查询嵌入的隐式开放词汇地图，这些嵌入能够表示任何语义类。然而，嵌入无法直接报告场景上下文，因为它们是隐式的，需要进一步处理才能与 LLM 集成。为了解决这个问题，我们提出了一种显式文本地图，它可以表示数千个语义类，同时由于其文本性质，可以轻松地与 LLM 集成，这是基于大规模图像识别模型构建的。我们研究了地图中的实体如何被定位，并通过评估表明，我们的文本地图定位与开放词汇地图的定位性能相当，同时使用的内存少两个到四个数量级。真实的机器人实验演示了将 LLM 与文本地图结合以解决用户任务。