LLM2D

摘要

近年来，在强化学习中，用人类反馈（RLHF）方法来替代大型语言模型（LLMs）的奖励模型，如直接偏好优化（DPO）及其变体，引起了极大的兴趣。这些方法通常使用成对样本上的二元交叉熵机制，即分别最小化和最大化基于偏好或非偏好响应的损失。然而，这种训练策略虽然省略了奖励模型，但也忽略了不同响应中不同的偏好程度。我们假设这是阻碍LLMs充分理解人类偏好的一个关键因素。为了解决这个问题，我们提出了一种新的自监督偏好优化（SPO）框架，它构建了一个自监督偏好程度损失，并将其与对齐损失相结合，从而帮助LLMs提高其理解偏好程度的能力。我们在两个广泛使用的不同任务数据集上进行了大量的实验。结果表明，SPO可以无缝地与现有的偏好优化方法集成，并显著提升其性能，从而达到最先进的性能。我们还进行了详细的分析，以提供对SPO的全面见解，验证了其有效性。代码可在https://github.com/lijian16/SPO获取。