LLM2D
基于语言反馈模型的策略改进
Policy Improvement using Language Feedback Models
作者: Victor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre C\^ot\'e
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2402.07876v5

摘要

我们介绍了语言反馈模型 (LFMs),它可以识别理想的行为——帮助完成指令中指定任务的动作——用于指令遵循的模仿学习。为了训练 LFMs,我们从大型语言模型 (LLMs) 中获取对语言描述的视觉轨迹的反馈。首先,通过使用 LFMs 来识别要模仿的理想行为,我们在三个不同的语言接地环境(Touchdown、ScienceWorld 和 ALFWorld)中,比强大的行为克隆基线在任务完成率方面有所提高。其次,在控制 LLM 输出令牌数量的情况下,LFMs 在使用 LLMs 作为专家直接预测动作方面表现出色。第三,LFMs 可以推广到看不见的环境,通过一轮适应,任务完成率提高了 3.5-12.0%。最后,LFM 可以被修改以提供人类可解释的反馈,而不会损失性能,从而允许人类验证模仿学习的理想行为。