摘要
arXiv:2505.00022v1 宣告类型: cross
摘要:对于大规模语言模型(LLMs),扩大数据量是至关重要的,但最近的研究发现,数据质量可以显著提升性能和训练效率。我们引入了一种结合启发式和基于模型的筛选技术与合成数据生成的德语数据集整理管道。我们使用该管道创建了 Aleph-Alpha-GermanWeb,这是一个大规模的德语预训练数据集,它整合了以下来源:(1) 共同爬取的网络数据,(2) FineWeb2,以及 (3) 根据实际有机网络数据生成的合成数据。我们通过预训练一个1B规模的类似Llama的模型和一个8B无标记的分层自回归变换器(HAT)来评估我们的数据集。在包括MMMLU在内的德语基准测试中,Aleph-Alpha-GermanWeb相较于仅使用FineWeb2的数据集显示出显著的性能改进。即使将FineWeb2丰富为高质量的人工筛选数据源(如维基百科),这一优势在8B规模下仍然有效。我们的研究成果支持不断增加的证据,表明基于模型的数据筛选和合成数据生成可以显著增强LLM预训练数据集。