摘要
近年来,许多偏好优化算法被引入,作为直接偏好优化 (DPO) 家族的扩展。虽然这些方法成功地使模型与人类偏好相一致,但对于它们额外组件的贡献缺乏理解。此外,公平且一致的比较很少,难以辨别哪些组件真正提高了后续性能。在这项工作中,我们提出了 RainbowPO,一个统一的框架,通过将现有 DPO 方法的关键组件归类为七个广泛的方向来揭示其有效性。我们将这些组件整合到一个单一的凝聚目标中,增强每个单独元素的性能。通过大量的实验,我们证明 RainbowPO 优于现有的 DPO 变体。此外,我们提供见解,指导研究人员开发新的 DPO 方法,并帮助从业人员进行实施。