LLM2D
将苹果与橘子比较:基于LLM的多模态意图预测在物体分类任务中的应用
Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task
作者: Hassan Ali, Philipp Allgeuer, Stefan Wermter
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2404.08424v3

摘要

arXiv:2404.08424v3 公告类型: replace-cross 摘要:基于人类意图的系统使机器人能够感知和解释用户动作,从而与人类互动并主动适应其行为。因此,在人类设计的环境中,意图预测对于创建与社会机器人自然交互至关重要。在本文中,我们探讨使用大型语言模型(LLMs)在与物理机器人协作的对象分类任务中推断人类意图。我们提出了一种新颖的多模态方法,该方法将用户的非言语线索(如手势、姿态和面部表情)与环境状态和用户的言语线索结合起来,在分层架构中预测用户意图。对五种LLM的评估显示,它们有潜力处理言语和非言语用户线索,利用其上下文理解和现实世界知识支持在与社会机器人协作任务中的意图预测。视频:https://youtu.be/tBJHfAuzohI