摘要
为了改进人类偏好对齐训练,现有研究开发了许多包含标注为“更偏好”或“不太偏好”的偏好对的偏好数据集。这些偏好对通常用于通过奖励建模将人类偏好编码成单个数值,该数值在从人类反馈中进行强化学习 (RLHF) 时充当奖励信号。然而,将这些人类偏好表示为数值会使这些偏好的分析变得复杂,并限制其在 RLHF 以外的更广泛应用。相反,在这项工作中,我们引入了一个偏好表示学习任务,旨在构建更丰富、更结构化的的人类偏好表示。我们进一步开发了一个更通用的框架,即通过偏好对学习人类偏好的表示(即 LRHP),该框架超越了传统的奖励建模,以解决这一任务。我们在两个下游任务中验证了偏好表示的效用:偏好数据选择和偏好边际预测。基于表示中的人类偏好,我们在两个任务中都取得了良好的性能,显著优于基线。