LLM2D

摘要

arXiv:2503.19551v1 跨域公告类型：交叉摘要：大规模语言模型（LLMs）在多样化的任务中取得了出色的性能，这主要归因于预训练过程中使用的高质量网络数据。然而，近期的研究表明，这种数据源正在迅速枯竭。合成数据作为一种有前景的替代方案浮现出来，但目前尚不清楚合成数据集是否能展现出与原始预训练数据相当的可预测的扩展性。在本文中，我们通过引入SynthLLM，一种可扩展的框架来系统地研究合成数据的扩展性规律，该框架将预训练语料库转换为多样且高质量的合成数据集。我们的方法通过使用图算法自动提取和重组多个文档中的高层概念来实现这一点。对SynthLLM进行广泛数学实验的关键发现包括：（1）SynthLLM生成的合成数据在各种模型尺寸下可靠地遵循修正的扩展定律；（2）性能改进在300B词令牌处接近平台期；（3）更大的模型在更少的训练词令牌下接近最佳性能。例如，一个8B模型在1T词令牌时达到峰值，而一个3B模型则需要4T词令牌。此外，与现有的合成数据生成和增强方法的比较表明，SynthLLM在性能和扩展性上表现出色。我们的研究结果强调，合成数据作为一种可扩展且可靠的替代方案，为有机预训练语料库提供了继续提高模型性能的可行性路径。