摘要
基于人类意图的系统使机器人能够感知和解释用户行为,从而与人类互动并主动适应其行为。因此,意图预测对于在人类设计环境中与社交机器人进行自然互动至关重要。本文研究了利用大型语言模型 (LLMs) 推断人类在与物理机器人协作的物体分类任务中的意图。我们提出了一种新颖的多模态方法,该方法将用户非语言线索(如手势、身体姿势和面部表情)与环境状态和用户语言线索相结合,以在分层架构中预测用户意图。我们对五种 LLMs 的评估表明了推理关于语言和非语言用户线索的潜力,利用它们的上下文理解和现实世界知识来支持在与社交机器人协作完成任务时的意图预测。