LLM2D
行为优先:靠近大型语言模型产生的行为可以更好地实现在线大型语言模型对齐
BPO: Staying Close to the Behavior LLM Creates Better Online LLM Alignment
作者: Wenda Xu, Jiachen Li, William Yang Wang, Lei Li
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2406.12168v3

摘要

直接从偏好中对齐(DAP)已成为一种很有前景的范式,用于将大型语言模型(LLM)与从预先收集的离线偏好数据集中获得的人类愿望进行对齐。虽然最近的研究表明现有的离线 DAP 方法可以直接从在线训练样本中受益,但我们强调需要开发专门的在线 DAP 算法来充分利用在线训练的强大功能。具体来说,我们发现学习到的 LLM 应该遵循收集训练样本的行为 LLM 的邻近性。为此,我们提出了行为 LLM 邻近的在线偏好优化(BPO),强调为 LLM 对齐构建适当的信任区域的重要性。 我们进行了广泛的实验,通过将我们的方法与各种 DAP 方法集成,验证了我们方法的有效性和适用性,从而在使用相同数量的偏好数据进行训练时,在各种任务中获得了显著的性能提升。即使只引入一个额外的數據收集阶段,我们的在线 BPO 也将它的离线 DAP 基线从 TL;DR 的 72.0% 提升到 80.2%,并将 Anthropic 有用性的基线从 82.2% 提升到 89.1%,这是以相对于人类参考文本的获胜率来衡量的。