LLM2D

摘要

本文介绍了 Robi Butler，一个新颖的家用机器人系统，它能够与远程用户进行多模态交互。基于先进的通信接口，Robi Butler 允许用户监控机器人的状态，发送文本或语音指令，并通过手势指向选择目标物体。我们系统的核心是一个高级行为模块，由大型语言模型 (LLM) 驱动，它解释多模态指令以生成行动计划。这些计划由一组开放词汇原语组成，这些原语由视觉语言模型 (VLM) 支持，处理文本和指向查询。上述组件的集成使 Robi Butler 能够以零样本的方式将远程多模态指令落地到现实世界的家庭环境中。我们使用各种日常家务任务来证明该系统的有效性和效率，这些任务涉及远程用户给出多模态指令。此外，我们进行了一项用户研究，以分析多模态交互如何影响远程人机交互过程中的效率和用户体验，并讨论潜在的改进方向。