摘要
直接从偏好中对齐(DAP)已成为一种很有前景的范式,用于将大型语言模型(LLM)与从预先收集的离线偏好数据集中获得的人类愿望进行对齐。虽然最近的研究表明现有的离线 DAP 方法可以从在线训练样本中直接获益,但我们强调需要开发专门的在线 DAP 算法来充分利用在线训练的优势。具体而言,我们发现,学习到的 LLM 应该遵循收集训练样本的行为 LLM 的邻近性。为此,我们提出了在线偏好优化,它与行为 LLM(BPO)的邻近性,强调了为 LLM 对齐构建适当信任区域的重要性。
我们进行了广泛的实验,通过将我们的方法与各种 DAP 方法集成来验证其有效性和适用性,结果表明,在使用相同数量的偏好数据进行训练时,在各种任务中都取得了显著的性能提升。即使只引入一个额外的数据收集阶段,我们的在线 BPO 也将其离线 DAP 基线从 TL;DR 的 72.0% 提高到 80.2%,从 Anthropic 有用性的 82.2% 提高到 89.1%,在与人类参考文本的获胜率方面。