LLM2D
叠加产生稳健的神经网络扩展
Superposition Yields Robust Neural Scaling
作者: Yizhou liu, Ziming Liu, Jeff Gore
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2505.10465v1

摘要

arXiv:2505.10465v1 类别: cross 摘要: 今天的大规模语言模型(LLMs)的成功依赖于一个观察结果,即更大的模型表现更好。然而,这一神经缩放定律——发现损失随模型大小呈幂律减小——的起源仍然不清楚。从两条经验原则出发——即语言模型表达的东西比它们的模型维度(宽度)多(即表示是叠加的),以及语言中的单词或概念出现的频率不同——我们建立了一个玩具模型来研究损失随模型大小的变化。我们发现,当叠加作用较弱时,即仅表示最频繁的特征而未相互干扰,损失随模型大小的变化取决于底层特征频率;如果特征频率遵循幂律分布,那么损失也将遵循幂律分布。相反,在叠加作用很强的情况下,所有特征都被表示但相互重叠,损失在整个特征频率分布范围内与模型维度成反比。这种稳健的缩放行为从几何学上得到了解释:当大量向量被压缩到低维度空间时,向量之间的干扰(平方重叠)与该维度成反比。然后,我们分析了四项开源的大规模语言模型,发现它们表现出强叠加作用,并且定量地符合我们玩具模型的预测。Chinchilla缩放定律也与我们的结果一致。我们得出结论,表示叠加是观察到的神经缩放定律背后的重要的机制。我们预期这些洞察将激发新的训练策略和模型架构,从而在较少计算和更少参数的情况下实现更好的性能。