LLM2D

摘要

随着大型语言模型 (LLM) 的发展，使其与人类偏好保持一致变得越来越重要。我们提出了逐步 DPO (sDPO)，这是最近流行的直接偏好优化 (DPO) 的一种扩展，用于对齐微调。这种方法涉及将可用的偏好数据集进行划分，并以逐步的方式利用它们，而不是一次性使用所有数据集。我们证明了这种方法有助于在 DPO 训练框架中使用更精确对齐的参考模型。此外，sDPO 训练的最终模型性能更高，甚至超过了其他具有更多参数的流行 LLM。