摘要
arXiv:2501.06802v2 宣告类型: 替换
摘要:2020年,OpenAI 提出了第一种扩展定律,描述了模型损失与参数规模、数据量和训练计算量之间的关系。2024年,OpenAI 提出了第二种扩展定律,描述了模型推理性能与推理计算量之间的关系。在本文中,我们从无损压缩的角度,利用条件柯尔莫哥洛夫复杂度分析大规模语言模型(LLMs)的训练和推理过程,并统一了这两种扩展定律。我们发现,这两种扩展定律通过增加图灵机的执行步骤来改善对条件柯尔莫哥洛夫复杂度的逼近。第一种扩展定律通过增加模型参数的数量来增加执行步骤。第二种扩展定律通过增加中间令牌的数量来增加执行步骤。