摘要
arXiv:2502.08606v1 推广类型: 交叉
摘要: 我们提供了一种蒸馏缩放定律,可以根据计算预算及其在学生模型和教师模型之间的分配来估算蒸馏模型的性能。我们的发现降低了大规模使用蒸馏带来的风险;现在可以根据最大化学生模型性能的目的,为教师模型和学生模型分配计算资源。我们提供了在以下两种情况下的计算最优蒸馏配方:1) 当存在教师模型时,或 2) 当需要对教师模型进行训练时。如果要蒸馏大量学生模型,或者已经存在教师模型,那么直到计算资源水平达到预期增长的学生规模之前,蒸馏的表现都会优于监督预训练。如果只蒸馏一个学生模型且教师模型也需要训练,那么应该采用监督学习。此外,我们还提供了一项大规模蒸馏研究中的见解,这些见解增加了我们对蒸馏的理解,并为实验设计提供参考。