摘要
arXiv:2410.08527v2 宣告类型: 替换-交叉
摘要:在训练之前精确估计大型语言模型(LLMs)的下游性能对于指导其开发过程至关重要。缩放定律分析利用一系列显著较小的采样语言模型(LMs)的统计信息来预测目标LLM的性能。对于下游性能预测而言,关键挑战在于LLMs中超出任务特定计算阈值的涌现能力。在这项工作中,我们聚焦于预训练损失作为更计算高效的性能估计指标。我们的两阶段方法FLP分为两个步骤:首先,使用一系列完全收敛的采样模型估计一个映射计算资源(例如FLOPs)到预训练损失的函数;其次,使用中间模型中的涌现性能将预训练损失映射到下游任务性能。在我们的实验中,这种方法FLP可以使用展平到3B的采样LMs准确预测7B和13B参数LLM的性能,误差分别为5%和10%,并且显著优于FLOPs-to-Performance方法。此外,我们提出了FLP-M,这是一种基础方法,用于解决预训练过程中从多个来源整合数据集的实际需求。FLP-M将幂律分析函数扩展为基于数据源的FLOPs预测领域特定的预训练损失,同时采用两层神经网络来建模多个领域特定的损失与下游性能之间的非线性关系。通过使用特定比例训练的3B LLM和一系列较小的采样LMs,FLP-M可以有效地预测3B和7B LLM在多种数据混合下的表现,误差在10%以内,适用于大多数基准测试。