摘要
arXiv:2410.17233v2 宣布类型: 替换
摘要:基于偏好的强化学习是一种处理奖励难以明确指定但可以通过深入学习偏好的方式,然而在需要从头学习偏好的情况下,这种方法往往效率低下。我们展示了大型语言模型(LLMs)具有内在的偏好学习能力,使其能够实现高效的偏好学习,从而应对这一挑战。我们提出了上下文中的偏好学习(ICPL),利用LLMs的上下文学习能力来减少人类查询的效率低下。ICPL 使用任务描述和基本环境代码来创建一系列奖励函数,并通过将人类反馈放在LLM的上下文中并嵌入成视频中的最终策略中,然后请求更好的奖励来迭代优化这些奖励函数。我们首先通过一个合成偏好的研究证明了ICPL的有效性,提供了定量证据表明它显著优于基线偏好方法,具有更高的性能和数量级更高的效率。我们观察到这种改进不仅仅来自于LLM在任务中的知识基础,奖励质量随时间提高,表明偏好学习能力的存在。此外,我们进行了一系列真实的人类偏好学习试验,并观察到ICPL 超出了合成环境的应用范围,可以在人类参与的环境中有效工作。