摘要
arXiv:2504.16041v1 宣告类型: 横向对比
摘要:本文探讨了不同优化器对“咕克现象”(grokking phenomenon)的影响,即模型表现出延迟泛化的情况。我们使用现代的Transformer架构,在七个数值任务(主要是模数算术)上进行了实验。实验配置系统地变化了优化器(Muon vs. AdamW)和softmax激活函数(标准softmax、稳定最大和稀疏最大),以评估它们对学习动态的联合影响。我们的实证评估表明,使用谱范数约束和二阶信息的Muon优化器显著加快了与广泛使用的AdamW优化器相比的“咕克现象”出现时间。具体来说, Muon 将所有配置下的平均“咕克” epoch 从 153.09 减少到 102.89,这是一个统计上显著的区别(t = 5.0175, p = 6.33e-08)。这表明优化器的选择在促进从记忆到泛化的过渡中起到了至关重要的作用。