摘要
arXiv:2504.00907v2
Announce Type: replace
摘要:在真实世界环境中运行的具身智能体必须解析模糊和欠定义的人类指令。一个能干的家庭机器人应当识别模糊性并提出相关澄清问题,以准确推断用户意图,从而提高任务执行的有效性。为研究这一问题,我们引入了“请求-执行”任务,即具身智能体必须在家庭环境中根据模糊的指令获取特定的对象实例。智能体必须在部分可观测性下,战略性地提出最少但相关的澄清问题,以解决模糊性。为解决这一问题,我们提出了一种新颖的方法,利用在线强化学习(RL)结合LLM生成的奖励对多模态大型语言模型(MLLMs)进行微调,作为视觉-语言-动作(VLA)策略。我们的方法消除了需要大规模人工演示或手动工程化奖励来训练这种智能体的必要性。我们在我们的任务上将我们的方法与强大的零-shot基线,包括GPT-4o和监督微调的MLLMs进行对比。我们的结果表明,我们的RL微调MLLM在所有基线中表现显著更好(19.1%-40.3%),并且能够很好地泛化到新的场景和任务中。据我们所知,这是第一次展示适应MLLM作为VLA智能体,利用LLM生成的奖励通过在线RL进行行动和请求帮助的能力。