LLM2D

摘要

我们提出了一种名为“软偏好优化”(SPO) 的方法，用于将生成模型（例如大型语言模型 (LLM)）与人类偏好对齐，而无需奖励模型。SPO 通过一个自然的损失函数直接在偏好数据集上优化模型输出，该损失函数将偏好损失与模型整个输出分布的正则化项相结合，而不是将其限制在偏好数据集上。虽然 SPO 不需要假设存在底层奖励模型，但我们证明了在 Bradley-Terry (BT) 模型假设下，它收敛到奖励的 softmax，分布的“软度”可以通过 softmax 指数（算法参数）进行调整。我们展示了 SPO 的方法论、理论基础以及在简单性、计算效率和对齐精度方面的比较优势。