摘要
arXiv:2412.06540v4 宣告类型: replace-cross
摘要:大规模语言模型(LLM)的标度定律基于参数大小和训练数据等指标预测模型性能。然而,模型家族之间的训练配置和数据处理差异导致基准性能显著不同,使得单一的标度定律难以适用于所有LLM。另一方面,针对特定训练家族的标度定律需要为每个家族训练不同大小的模型。在本文中,我们提出了技能标度定律(SSLaws,读作Sloth),这是一种新颖的标度定律,它利用公开的基准数据假设LLM的性能由低维度的潜在技能驱动,如推理和指令跟随。这些潜在技能受计算资源如模型大小和训练令牌的影响,但不同模型家族的效率不同。Sloth 利用不同基准之间的相关性来提供更准确和可解释的预测,从而减轻针对每个家族训练多个LLM的需求。我们分别在理论上对参数识别结果进行了阐述,并在Open LLM Leaderboard v1/v2的12个主要基准上进行了实证评估,证明了Sloth能够高效预测LLM的性能,并提供了复杂下游任务和增加测试时计算量的标度行为见解。