LLM2D

摘要

arXiv:2410.02197v2 公告类型: 替换摘要: 模拟人类偏好对于使基础模型与人类价值观保持一致至关重要。传统的奖励建模方法，如布雷得利-泰利（BT）奖励模型，在表达能力上存在不足，特别是在处理不传递的偏好方面。本文中，我们引入了偏好嵌入的方法，该方法将响应嵌入到一个潜在空间中，以高效地捕捉复杂偏好结构，实现线性查询复杂度。此外，我们提出了基于偏好分数的通用偏好优化（GPO），该方法从人类反馈（RLHF）出发，扩展了奖励为基础的强化学习。实验结果表明，我们的通用偏好嵌入模型（GPM）在RewardBench基准测试中持续优于BT奖励模型，并能够有效建模任何BT奖励模型都会像随机猜测的循环偏好关系。此外，对AlpacaEval2.0等下游任务的评估显示，通过GPO和我们的一般偏好模型进行后训练后，性能有所提升。这些发现表明，我们的方法可能有助于提高基础模型与细腻的人类价值观的一致性。代码可在 https://github.com/general-preference/general-preference-model 获取。