LLM2D
AutoScale:面向规模的数据混合预训练大语言模型
AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs
作者: Feiyang Kang, Yifan Sun, Bingbing Wen, Si Chen, Dawn Song, Rafid Mahmood, Ruoxi Jia
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2407.20177v4

摘要

arXiv:2407.20177v4 宣布类型: 替换交叉 摘要:领域重加权是一个新兴的研究领域,旨在通过调整不同数据源的相对权重来提高LLM预训练的效果和效率。我们发现,在较小规模下表现良好的数据混合可能在较大规模下不再保持其优势,这挑战了现有做法,即在小型实验中确定具有竞争力的数据混合,然后直接应用于更大的规模。为了解决这一问题,我们提出了AutoScale,这是一种具有两阶段、规模感知的数据组合框架。首先,AutoScale拟合一个参数化模型,该模型可以预测不同数据组合下的模型损失,然后使用该模型在较小、更易于管理的预算下找到一个近似最佳分配。接下来,利用一种新的理论分析方法,该方法研究了最优组合如何随规模演化,AutoScale可以将该组合外推到更大的预算而不需进一步重新训练。从实验上讲,AutoScale加速了收敛并改善了下游性能。例如,在预训练GPT-2 Large时,它比基线实现28%更快的困惑度减少,并在未加权训练上实现了高达38%的提速,同时在各种下游任务上达到最佳平均结果。总体而言,我们的发现表明,随着训练规模的变化,领域的重要性也会发生变化,突显了在LLM训练中依赖于规模的数据整理的必要性。我们的代码已开源。