摘要
我们介绍了语言反馈模型 (LFMs),它可以识别理想的行为——帮助完成指令中指定任务的动作——用于指令遵循的模仿学习。为了训练 LFMs,我们从大型语言模型 (LLMs) 中获取对语言描述的视觉轨迹的反馈。首先,通过使用 LFMs 来识别要模仿的理想行为,我们在三个不同的语言接地环境(Touchdown、ScienceWorld 和 ALFWorld)中,比强大的行为克隆基线在任务完成率方面有所提高。其次,在控制 LLM 输出令牌数量的情况下,LFMs 在使用 LLMs 作为专家直接预测动作方面表现出色。第三,LFMs 可以推广到看不见的环境,通过一轮适应,任务完成率提高了 3.5-12.0%。最后,LFM 可以被修改以提供人类可解释的反馈,而不会损失性能,从而允许人类验证模仿学习的理想行为。