摘要
arXiv:2409.14705v1 公告类型: 交叉 摘要: 语言模型预训练通常面向广泛的应用场景,并整合来自多种来源的数据。然而,在某些情况下,我们希望模型在特定领域表现出色,同时不会显著影响在其他领域的表现。一种经济高效且直接的方法是利用低维数据特征进行采样,从而为特定领域的应用场景选择大规模预训练数据。在这项工作中,我们重新审视了基于n-gram特征的重要性采样方法,这些特征由多粒度令牌组成,能够在句子压缩和表示能力之间取得良好平衡。我们观察到,采样数据与目标下游任务性能高度相关,同时在其他任务上保持有效性。这引出了一个数据采样范式,其中语言模型可以在选定的文档上更高效地进行预训练。在八个基准测试中,我们展示了使用约1%的数据,预训练模型在性能上与完整的RefinedWeb数据相当,并且在125M到1.5B的模型规模范围内优于随机选择的样本。