LLM2D

摘要

arXiv:2504.00907v1 通告类型: 新论文摘要：在现实世界环境中运作的类人智能体必须解释含糊不清和不明确的人类指令。一个能干的家庭机器人应该能够识别含糊不清并提出相关澄清问题，以准确推断用户意图，从而更有效地执行任务。为研究这一问题，我们引入了“询问以行动”任务，即在家庭环境中，类人智能体必须根据含糊的指令获取特定对象实例。智能体必须在部分可观测性下战略性地提出最小但相关的澄清问题来解决含糊性。为解决这一问题，我们提出了一种新方法，通过使用在线强化学习（RL）和由大语言模型（LLM）生成的奖励，微调多模态大语言模型（MLLM）作为视觉-语言-动作（VLA）策略。我们的方法去除了对大规模人工演示或手工工程化奖励的需要，以训练此类智能体。我们在我们的任务上对比了强大的零样本基线，包括GPT-4o和监督微调的MLLM。我们的结果表明，我们的RL微调MLLM在所有基线中取得了显著的性能提升（19.1%至40.3%），并很好地泛化到新的场景和任务。据我们所知，这是首次证明通过在线RL使用LLM生成的奖励作为VLA代理能够执行和寻求帮助的方法。