LLM2D
自监督偏好优化:赋予语言模型偏好程度感知能力
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness
作者: Jian Li, Haojing Huang, Yujia Zhang, Pengfei Xu, Xi Chen, Rui Song, Lida Shi, Jingwen Wang, Hao Xu
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2409.17791v1

摘要

近年来,在强化学习中,用人类反馈(RLHF)方法来替代大型语言模型(LLMs)的奖励模型,如直接偏好优化(DPO)及其变体,引起了极大的兴趣。这些方法通常使用成对样本上的二元交叉熵机制,即分别最小化和最大化基于偏好或非偏好响应的损失。然而,这种训练策略虽然省略了奖励模型,但也忽略了不同响应中不同的偏好程度。我们假设这是阻碍LLMs充分理解人类偏好的一个关键因素。为了解决这个问题,我们提出了一种新的自监督偏好优化(SPO)框架,它构建了一个自监督偏好程度损失,并将其与对齐损失相结合,从而帮助LLMs提高其理解偏好程度的能力。我们在两个广泛使用的不同任务数据集上进行了大量的实验。结果表明,SPO可以无缝地与现有的偏好优化方法集成,并显著提升其性能,从而达到最先进的性能。我们还进行了详细的分析,以提供对SPO的全面见解,验证了其有效性。代码可在https://github.com/lijian16/SPO获取。