摘要
arXiv:2501.04286v2 公告类型:替换-交叉
摘要:在分形几何的领域中,复杂的结构源自简单的迭代过程,该过程将参数空间划分为稳定区域和不稳定区域。同样,在训练大型语言模型时,通过迭代应用更新函数(如 Adam),即使是轻微的超参数调整也会使训练过程从收敛转变为发散。最近来自小型神经网络的证据表明,这些结果之间的分界线具有分形特性。基于这些见解,本研究将这些发现扩展到中型、仅解码器变压器架构中,通过采用更一致的收敛度量和检查注意层和全连接层的超参数景观来进行。结果表明,可训练区域前沿并非简单的阈值;相反,它在多个尺度上形成了自我相似但似乎随机的结构,具有统计上一致且重复的模式。在此景观中,一个稳定收敛的区域被一个复杂的混沌边界包围,表明底层训练动力学的高度敏感性。