LLM2D

摘要

我们介绍了语言反馈模型 (LFMs)，它可以识别理想的行为——帮助完成指令中指定任务的动作——用于指令遵循的模仿学习。为了训练 LFMs，我们从大型语言模型 (LLMs) 中获取对语言描述的视觉轨迹的反馈。首先，通过使用 LFMs 来识别要模仿的理想行为，我们在三个不同的语言接地环境（Touchdown、ScienceWorld 和 ALFWorld）中，比强大的行为克隆基线在任务完成率方面有所提高。其次，在控制 LLM 输出令牌数量的情况下，LFMs 在使用 LLMs 作为专家直接预测动作方面表现出色。第三，LFMs 可以推广到看不见的环境，通过一轮适应，任务完成率提高了 3.5-12.0%。最后，LFM 可以被修改以提供人类可解释的反馈，而不会损失性能，从而允许人类验证模仿学习的理想行为。