摘要
arXiv:2505.06150v1 宣告类型: cross
摘要: 我们介绍了一种在固定计算预算下微调大规模语言模型 (LLMs) 的缩放定律,该定律明确考虑了数据构成。传统的做法仅通过总令牌数来衡量训练数据,然而,数据集中的样本数量及其平均令牌长度——我们称之为“数据集体积”——在模型性能方面起着决定性的作用。我们的公式是按照现有程序调整的。在对 BRICC 数据集 [salavati2024reducing] 和 MMLU 数据集 [hendrycks2021measuringmassivemultitasklanguage] 的子集进行多策略子采样评估的实验中,显示数据构成显著影响了令牌效率。这些结果促使我们为资源受限环境下的实际 LLM 微调开发更为精细的缩放定律。