LLM2D

摘要

设计奖励函数是强化学习的核心组成部分，但对于真正复杂的行为来说可能具有挑战性。来自人类反馈的强化学习 (RLHF) 通过用从偏好中学习到的奖励函数代替人工编码的奖励函数来缓解这一挑战。然而，学习这些奖励可能极其低效，因为它们通常是从零开始学习的。我们研究了大型语言模型 (LLM) 是否可以通过将一系列迭代的人类偏好转换为表示奖励的代码来减少这种查询低效性。我们提出了上下文偏好学习 (ICPL)，这是一种利用LLM的基础来加速从偏好中学习奖励函数的方法。ICPL 获取环境上下文和任务描述，合成一组奖励函数，然后使用对生成的策略视频的人类排名反复更新奖励函数。使用合成偏好，我们证明 ICPL 比 RLHF 高效得多，甚至可以与使用真实奖励函数而不是偏好的方法相媲美。最后，我们进行了一系列人类偏好学习试验，并观察到 ICPL 扩展到合成设置之外，并且可以有效地与人类互动。更多信息和视频请访问 https://sites.google.com/view/few-shot-icpl/home。