LLM2D

摘要

直接从偏好中对齐（DAP）已成为一种很有前景的范式，用于将大型语言模型（LLM）与从预先收集的离线偏好数据集中获得的人类愿望进行对齐。虽然最近的研究表明现有的离线 DAP 方法可以直接从在线训练样本中受益，但我们强调需要开发专门的在线 DAP 算法来充分利用在线训练的强大功能。具体来说，我们发现学习到的 LLM 应该遵循收集训练样本的行为 LLM 的邻近性。为此，我们提出了行为 LLM 邻近的在线偏好优化（BPO），强调为 LLM 对齐构建适当的信任区域的重要性。我们进行了广泛的实验，通过将我们的方法与各种 DAP 方法集成，验证了我们方法的有效性和适用性，从而在使用相同数量的偏好数据进行训练时，在各种任务中获得了显著的性能提升。即使只引入一个额外的數據收集阶段，我们的在线 BPO 也将它的离线 DAP 基线从 TL;DR 的 72.0% 提升到 80.2%，并将 Anthropic 有用性的基线从 82.2% 提升到 89.1%，这是以相对于人类参考文本的获胜率来衡量的。