LLM2D

摘要

arXiv:2405.00746v2 宣告类型: replace-cross 摘要：为了创建有用的强化学习（RL）代理，第一步是设计一个合适的奖励函数，以捕捉任务的细微差别。然而，奖励工程可以是一个棘手且耗时的过程。相反，带有内环人类的强化学习方法有潜力通过人类反馈学习奖励函数。尽管最近取得了成功，许多带有内环人类的强化学习方法仍然需要大量的人类互动来学习成功的奖励函数。为了提高带有内环人类的强化学习方法的反馈效率（即需要更少的人类互动），本文介绍了次优数据预训练（Sub-optimal Data Pre-training, SDP）这种方法，利用次优的、无奖励的数据来改进标量和偏好基于的RL算法。在SDP中，我们首先使用环境奖励的最小值为所有低质量的数据进行伪标签化。通过这一过程，我们获得奖励标签，不需要人类标签或偏好即可预训练我们的奖励模型。这个预训练阶段为奖励模型提供了一个学习的开端，使其能够识别低质量的转换应该分配较低的奖励。通过与仿真和人类教师的广泛实验，我们发现SDP可以至少达到，但在许多情况下显著提高各种仿真机器人任务中带有内环人类的强化学习性能。