LLM2D
Home
Arxiv
返回列表
sDPO:不要一次性使用所有数据
sDPO: Don't Use Your Data All at Once
作者:
Dahyun Kim, Yungi Kim, Wonho Song, Hyeonwoo Kim, Yunsu Kim, Sanghoon Kim, Chanjun Park
发布日期:
10/8/2024
arXiv ID:
oai:arXiv.org:2403.19270v2
摘要
随着大型语言模型 (LLM) 的发展,使其与人类偏好保持一致变得越来越重要。我们提出了逐步 DPO (sDPO),这是最近流行的直接偏好优化 (DPO) 的一种扩展,用于对齐微调。这种方法涉及将可用的偏好数据集进行划分,并以逐步的方式利用它们,而不是一次性使用所有数据集。我们证明了这种方法有助于在 DPO 训练框架中使用更精确对齐的参考模型。此外,sDPO 训练的最终模型性能更高,甚至超过了其他具有更多参数的流行 LLM。
查看原文
下载 PDF