摘要
arXiv:2502.14907v1 声明类型: cross
摘要: 数据的数量和质量在决定大规模语言模型(LLMs)的表现中起着关键作用。尤其是高质量的数据可以显著增强LLMs在一系列下游任务上泛化的能力。领先的LLMs的大型预训练数据集对公众来说仍然不可访问,而许多公开的数据集规模较小(少于5万亿个令牌),限制了它们用于训练大型模型的适用性。
在本文中,我们介绍了GneissWeb,这是一个提供大约10万亿个令牌的大规模数据集,能够满足训练LLMs所需的数据质量和数量要求。我们的GneissWeb数据集制作配方包括分割精确的子字符串去重和精心构造的质量筛选组。GneissWeb在数据质量和数量之间达到了良好的权衡,生成的模型在使用最新开放大型数据集(5+万亿个令牌)训练的模型中表现出色。
我们展示了使用GneissWeb数据集训练的模型在评估数据集的11个常用基准集(包括零样本和少量样本)上,平均得分比使用FineWeb-V1.1.0训练的模型高出2.73个百分点。当评估集扩展到20个基准集(包括零样本和少量样本)时,使用GneissWeb训练的模型仍比使用FineWeb-V1.1.0训练的模型高出1.75个百分点。