LLM2D

摘要

arXiv:2501.13126v2 宣布类型: 更换交叉引用摘要：大型语言模型（LLMs）通常在整个预训练过程中使用一致的数据分布。然而，随着模型能力的提升，直观上讲，其数据偏好会动态变化，表明在不同训练阶段使用不同的数据进行预训练的需求。为实现这一目标，我们提出了基于困惑度差异（PD）的偏好课程学习（PDPC）框架，该框架始终感知并利用LLMs偏好的数据来训练和提升它们。首先，我们引入了PD度量来量化样本对弱模型与强模型的挑战程度差异。具有高PD值的样本对弱模型来说更加具有挑战性，更适合安排在预训练的后期阶段。其次，我们提出了偏好函数来近似预测LLMs在任何训练步骤的数据偏好，以便离线完成数据集的排列，确保训练不间断。在1.3B和3B模型上的实验结果表明，PDPC显著优于基线模型。值得注意的是，使用1T个token训练的3B模型在MMLU和CMMLU上的平均准确率提高了超过8.1%。