LLM2D

摘要

arXiv:2505.10465v1 类别: cross 摘要: 今天的大规模语言模型（LLMs）的成功依赖于一个观察结果，即更大的模型表现更好。然而，这一神经缩放定律——发现损失随模型大小呈幂律减小——的起源仍然不清楚。从两条经验原则出发——即语言模型表达的东西比它们的模型维度（宽度）多（即表示是叠加的），以及语言中的单词或概念出现的频率不同——我们建立了一个玩具模型来研究损失随模型大小的变化。我们发现，当叠加作用较弱时，即仅表示最频繁的特征而未相互干扰，损失随模型大小的变化取决于底层特征频率；如果特征频率遵循幂律分布，那么损失也将遵循幂律分布。相反，在叠加作用很强的情况下，所有特征都被表示但相互重叠，损失在整个特征频率分布范围内与模型维度成反比。这种稳健的缩放行为从几何学上得到了解释：当大量向量被压缩到低维度空间时，向量之间的干扰（平方重叠）与该维度成反比。然后，我们分析了四项开源的大规模语言模型，发现它们表现出强叠加作用，并且定量地符合我们玩具模型的预测。Chinchilla缩放定律也与我们的结果一致。我们得出结论，表示叠加是观察到的神经缩放定律背后的重要的机制。我们预期这些洞察将激发新的训练策略和模型架构，从而在较少计算和更少参数的情况下实现更好的性能。