LLM2D

摘要

在大型语言模型 (LLM) 的训练之前，精确估计其下游性能对于指导其开发过程至关重要。缩放定律分析利用一系列显著更小的采样语言模型 (LM) 的统计数据来预测目标 LLM 的性能。对于下游性能预测，关键挑战在于 LLM 中出现的超越任务特定计算阈值的涌现能力。在这项工作中，我们专注于预训练损失作为一种更具计算效率的性能估计指标。我们的两阶段方法首先包括估计一个函数，该函数使用一系列采样模型将计算资源（例如，FLOPs）映射到预训练损失，然后在关键的“涌现阶段”之后将预训练损失映射到下游任务性能。在初步实验中，该 FLP 解决方案使用一系列高达 3B 的采样 LM，准确地预测了具有 7B 和 13B 参数的 LLM 的性能，分别实现了 5% 和 10% 的误差范围，显著优于 FLOPs 到性能的方法。这促使 FLP-M，一种用于性能预测的基本方法，该方法解决了在预训练期间将来自多个来源的数据集集成的实际需求，特别是将通用语料库与代码数据混合以准确地表示常见的必要性。FLP-M 扩展了幂律分析函数，以根据跨数据源的 FLOPs 预测特定领域的预训练损失，并使用两层神经网络来模拟多个特定领域损失与下游性能之间的非线性关系。通过利用在特定比例上训练的 3B LLM 和一系列更小的采样 LM，FLP-M 可以有效地预测 3B 和 7B LLM 在各种数据混合中的性能，对于大多数基准而言，误差范围在 10% 以内。