LLM2D

摘要

arXiv:2412.06540v4 宣告类型: replace-cross 摘要：大规模语言模型（LLM）的标度定律基于参数大小和训练数据等指标预测模型性能。然而，模型家族之间的训练配置和数据处理差异导致基准性能显著不同，使得单一的标度定律难以适用于所有LLM。另一方面，针对特定训练家族的标度定律需要为每个家族训练不同大小的模型。在本文中，我们提出了技能标度定律（SSLaws，读作Sloth），这是一种新颖的标度定律，它利用公开的基准数据假设LLM的性能由低维度的潜在技能驱动，如推理和指令跟随。这些潜在技能受计算资源如模型大小和训练令牌的影响，但不同模型家族的效率不同。Sloth 利用不同基准之间的相关性来提供更准确和可解释的预测，从而减轻针对每个家族训练多个LLM的需求。我们分别在理论上对参数识别结果进行了阐述，并在Open LLM Leaderboard v1/v2的12个主要基准上进行了实证评估，证明了Sloth能够高效预测LLM的性能，并提供了复杂下游任务和增加测试时计算量的标度行为见解。