LLM2D

摘要

arXiv:2504.15208v1 通用类型: 同类研究摘要: 为什么更大的语言模型能更好地泛化？为研究这个问题，我们开发了一种在 Chinchilla 标度律所描述的计算最优条件下，针对大型语言模型（LLM）预训练目标的泛化边界。我们引入了一种新颖的、完全经验的 Freedman 类鞅不等式，通过考虑损失函数的方差，从而收紧了现有的边界。这个泛化边界可以分解为三个可解释的组成部分：每个标记的参数数量、损失方差以及在固定位速率下的量化误差。当将计算最优的语言模型放大时，每个数据点的参数数量保持不变；然而，损失方差和量化误差都会减少，这意味着更大的模型应该有更小的泛化差距。我们从信息论的角度探讨了为什么更大的模型更容易量化，表明它们以新信息的集成速度比计算最优边界的容量更慢。从这些发现中，我们生产了一个泛化差距的标度律，其边界随规模增大而变得可预测地更强。