LLM2D
偏好课程:LLMs 应该总是先在其偏爱的数据上进行预训练
Preference Curriculum: LLMs Should Always Be Pretrained on Their Preferred Data
作者: Xuemiao Zhang, Liangyu Xu, Feiyu Duan, Yongwei Zhou, Sirui Wang, Rongxiang Weng, Jingang Wang, Xunliang Cai
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2501.13126v2

摘要

arXiv:2501.13126v2 宣布类型: 更换交叉引用 摘要:大型语言模型(LLMs)通常在整个预训练过程中使用一致的数据分布。然而,随着模型能力的提升,直观上讲,其数据偏好会动态变化,表明在不同训练阶段使用不同的数据进行预训练的需求。为实现这一目标,我们提出了基于困惑度差异(PD)的偏好课程学习(PDPC)框架,该框架始终感知并利用LLMs偏好的数据来训练和提升它们。首先,我们引入了PD度量来量化样本对弱模型与强模型的挑战程度差异。具有高PD值的样本对弱模型来说更加具有挑战性,更适合安排在预训练的后期阶段。其次,我们提出了偏好函数来近似预测LLMs在任何训练步骤的数据偏好,以便离线完成数据集的排列,确保训练不间断。在1.3B和3B模型上的实验结果表明,PDPC显著优于基线模型。值得注意的是,使用1T个token训练的3B模型在MMLU和CMMLU上的平均准确率提高了超过8.1%。