摘要
arXiv:2504.06020v1 宣告类型: 新
摘要:在从人类反馈中进行强化学习(REINFORCEMENT LEARNING FROM HUMAN FEEDBACK, RLHF)中,可推广的奖励模型是至关重要的,因为它能够正确评估未见过的提示-响应对。然而,现有的奖励模型缺乏这种能力,因为它们通常通过增加选择响应和被拒绝响应之间的奖励差距来进行训练,而忽视了响应所依赖的提示。因此,当经过训练的奖励模型评估那些未处于数据分布中的提示-响应对时,忽略提示的影响可能会导致奖励模型的泛化能力较差。为了应对这一问题,我们将奖励值分解为两个独立的组件:无提示奖励和提示相关奖励。无提示奖励代表仅由响应确定的评估,而提示相关奖励则反映了由提示和响应共同引起的奖励。我们从信息论的角度提取了这两个组件,无需额外的模型。随后,我们提出了一种新的奖励学习算法,该算法根据数据样本的无提示奖励值优先处理数据样本。通过玩具示例,我们展示了提取的无提示和提示相关奖励有效地表征了奖励模型的两个部分。进一步的标准评估显示,我们的方法提高了奖励模型的对齐性能和泛化能力。