LLM2D

摘要

近年来，许多偏好优化算法被引入，作为直接偏好优化 (DPO) 家族的扩展。虽然这些方法成功地使模型与人类偏好相一致，但对于它们额外组件的贡献缺乏理解。此外，公平且一致的比较很少，难以辨别哪些组件真正提高了后续性能。在这项工作中，我们提出了 RainbowPO，一个统一的框架，通过将现有 DPO 方法的关键组件归类为七个广泛的方向来揭示其有效性。我们将这些组件整合到一个单一的凝聚目标中，增强每个单独元素的性能。通过大量的实验，我们证明 RainbowPO 优于现有的 DPO 变体。此外，我们提供见解，指导研究人员开发新的 DPO 方法，并帮助从业人员进行实施。