LLM2D
软偏好优化:将语言模型与专家分布对齐
Soft Preference Optimization: Aligning Language Models to Expert Distributions
作者: Arsalan Sharifnassab, Saber Salehkaleybar, Sina Ghiassian, Surya Kanoria, Dale Schuurmans
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2405.00747v4

摘要

我们提出了一种名为“软偏好优化”(SPO) 的方法,用于将生成模型(例如大型语言模型 (LLM))与人类偏好对齐,而无需奖励模型。SPO 通过一个自然的损失函数直接在偏好数据集上优化模型输出,该损失函数将偏好损失与模型整个输出分布的正则化项相结合,而不是将其限制在偏好数据集上。虽然 SPO 不需要假设存在底层奖励模型,但我们证明了在 Bradley-Terry (BT) 模型假设下,它收敛到奖励的 softmax,分布的“软度”可以通过 softmax 指数(算法参数)进行调整。我们展示了 SPO 的方法论、理论基础以及在简单性、计算效率和对齐精度方面的比较优势。