LLM2D

摘要

直接从偏好中对齐（DAP）已成为一种很有前景的范式，用于将大型语言模型（LLM）与从预先收集的离线偏好数据集中获得的人类愿望进行对齐。虽然最近的研究表明现有的离线 DAP 方法可以从在线训练样本中直接获益，但我们强调需要开发专门的在线 DAP 算法来充分利用在线训练的优势。具体而言，我们发现，学习到的 LLM 应该遵循收集训练样本的行为 LLM 的邻近性。为此，我们提出了在线偏好优化，它与行为 LLM（BPO）的邻近性，强调了为 LLM 对齐构建适当信任区域的重要性。我们进行了广泛的实验，通过将我们的方法与各种 DAP 方法集成来验证其有效性和适用性，结果表明，在使用相同数量的偏好数据进行训练时，在各种任务中都取得了显著的性能提升。即使只引入一个额外的数据收集阶段，我们的在线 BPO 也将其离线 DAP 基线从 TL;DR 的 72.0% 提高到 80.2%，从 Anthropic 有用性的 82.2% 提高到 89.1%，在与人类参考文本的获胜率方面。