LLM2D
超越布拉德利-特里模型:一种通用偏好模型用于语言模型对齐
Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment
作者: Yifan Zhang, Ge Zhang, Yue Wu, Kangping Xu, Quanquan Gu
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2410.02197v2

摘要

arXiv:2410.02197v2 公告类型: 替换 摘要: 模拟人类偏好对于使基础模型与人类价值观保持一致至关重要。传统的奖励建模方法,如布雷得利-泰利(BT)奖励模型,在表达能力上存在不足,特别是在处理不传递的偏好方面。本文中,我们引入了偏好嵌入的方法,该方法将响应嵌入到一个潜在空间中,以高效地捕捉复杂偏好结构,实现线性查询复杂度。此外,我们提出了基于偏好分数的通用偏好优化(GPO),该方法从人类反馈(RLHF)出发,扩展了奖励为基础的强化学习。实验结果表明,我们的通用偏好嵌入模型(GPM)在RewardBench基准测试中持续优于BT奖励模型,并能够有效建模任何BT奖励模型都会像随机猜测的循环偏好关系。此外,对AlpacaEval2.0等下游任务的评估显示,通过GPO和我们的一般偏好模型进行后训练后,性能有所提升。这些发现表明,我们的方法可能有助于提高基础模型与细腻的人类价值观的一致性。代码可在 https://github.com/general-preference/general-preference-model 获取。