LLM2D
计算优化的大型语言模型在规模上能证明泛化效果更好
Compute-Optimal LLMs Provably Generalize Better With Scale
作者: Marc Finzi, Sanyam Kapoor, Diego Granziol, Anming Gu, Christopher De Sa, J. Zico Kolter, Andrew Gordon Wilson
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.15208v1

摘要

arXiv:2504.15208v1 通用类型: 同类研究 摘要: 为什么更大的语言模型能更好地泛化?为研究这个问题,我们开发了一种在 Chinchilla 标度律所描述的计算最优条件下,针对大型语言模型(LLM)预训练目标的泛化边界。我们引入了一种新颖的、完全经验的 Freedman 类鞅不等式,通过考虑损失函数的方差,从而收紧了现有的边界。这个泛化边界可以分解为三个可解释的组成部分:每个标记的参数数量、损失方差以及在固定位速率下的量化误差。当将计算最优的语言模型放大时,每个数据点的参数数量保持不变;然而,损失方差和量化误差都会减少,这意味着更大的模型应该有更小的泛化差距。我们从信息论的角度探讨了为什么更大的模型更容易量化,表明它们以新信息的集成速度比计算最优边界的容量更慢。从这些发现中,我们生产了一个泛化差距的标度律,其边界随规模增大而变得可预测地更强。