LLM2D
在固定计算预算下,LLM微调中 token 效率的标度律
A Scaling Law for Token Efficiency in LLM Fine-Tuning Under Fixed Compute Budgets
作者: Ryan Lagasse, Aidan Kiernans, Avijit Ghosh, Shiri Dori-Hacohen
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2505.06150v1

摘要

arXiv:2505.06150v1 宣告类型: cross 摘要: 我们介绍了一种在固定计算预算下微调大规模语言模型 (LLMs) 的缩放定律,该定律明确考虑了数据构成。传统的做法仅通过总令牌数来衡量训练数据,然而,数据集中的样本数量及其平均令牌长度——我们称之为“数据集体积”——在模型性能方面起着决定性的作用。我们的公式是按照现有程序调整的。在对 BRICC 数据集 [salavati2024reducing] 和 MMLU 数据集 [hendrycks2021measuringmassivemultitasklanguage] 的子集进行多策略子采样评估的实验中,显示数据构成显著影响了令牌效率。这些结果促使我们为资源受限环境下的实际 LLM 微调开发更为精细的缩放定律。