摘要
模拟人类偏好对于使基础模型与人类价值观保持一致至关重要。传统的奖励建模方法,如 Bradley-Terry (BT) 奖励模型,在表达能力方面存在不足,尤其是在处理非传递偏好方面。虽然监督配对偏好模型 (PairPM) 可以表达一般的偏好,但它们的实现高度特定,无法保证比较配对的一致偏好概率。此外,由于它们在比较多个响应时的二次查询复杂度,它们会带来高昂的计算成本。在本文中,我们介绍了偏好表示学习,这是一种将响应嵌入到潜在空间中以有效地捕获复杂偏好结构的方法,实现了线性查询复杂度。此外,我们提出了基于偏好分数的通用偏好优化 (GPO),它将基于奖励的强化学习从人类反馈中推广出来。实验结果表明,我们的通用偏好表示模型 (GPM) 在 RewardBench 基准测试中优于 BT 奖励模型,优势高达 5.6%,并且有效地模拟了循环偏好,在该偏好中,任何 BT 奖励模型的表现都类似于随机猜测。此外,在 AlpacaEval2.0 和 MT-Bench 等下游任务上的评估表明,在使用 GPO 和我们的通用偏好模型对语言模型进行后训练后,性能得到了显著提高,优势高达 9.3%。这些发现表明,我们的方法可以增强基础模型与细微的人类价值观的一致性。代码可在 https://github.com/general-preference/general-preference-model 获取。