LLM2D

摘要

arXiv:2409.14705v1 公告类型: 交叉摘要: 语言模型预训练通常面向广泛的应用场景，并整合来自多种来源的数据。然而，在某些情况下，我们希望模型在特定领域表现出色，同时不会显著影响在其他领域的表现。一种经济高效且直接的方法是利用低维数据特征进行采样，从而为特定领域的应用场景选择大规模预训练数据。在这项工作中，我们重新审视了基于n-gram特征的重要性采样方法，这些特征由多粒度令牌组成，能够在句子压缩和表示能力之间取得良好平衡。我们观察到，采样数据与目标下游任务性能高度相关，同时在其他任务上保持有效性。这引出了一个数据采样范式，其中语言模型可以在选定的文档上更高效地进行预训练。在八个基准测试中，我们展示了使用约1%的数据，预训练模型在性能上与完整的RefinedWeb数据相当，并且在125M到1.5B的模型规模范围内优于随机选择的样本。