LLM2D

摘要

arXiv:2410.17233v3 通告类型: 修改摘要：基于偏好的强化学习是处理奖励难以明确指定但可以通过极其高效的学习偏好的任务的一种有效方法，但偏好学习通常是从头开始（tabula rasa）。我们展示了大型语言模型（LLMs）具有内置的偏好学习能力，使它们能够实现样例效率的偏好学习，从而应对这一挑战。我们提出了上下文偏好学习（ICPL），它利用LLMs的上下文学习能力来减少人类查询的低效率。ICPL 使用任务描述和基本环境代码来创建一系列奖励函数，通过将人类反馈放置在LLM 的上下文环境中，并将最终结果的政策视频反馈给LLM，迭代改进奖励。我们首先通过一个合成偏好的研究展示了ICPL 的有效性，提供了定量证据表明它在性能和效率方面远超基于偏好的基线方法，且效率提高了多个数量级。我们观察到，这些改进不仅仅来源于LLMs 对任务的解释能力，还表明随着时间的推移，奖励的质量也在不断提高，这表明偏好学习能力。此外，我们还进行了多轮真实的人类偏好学习试验，观察到ICPL 不仅适用于合成环境，也能在有人类参与的情况下有效工作。