摘要
arXiv:2502.12131v1 宣称类型: 新
摘要: 随着人工智能模型在规模和能力上爆炸式增长,对其内部机制的理解仍然是一个关键挑战。受到神经科学中动力系统方法成功的启发,我们在此提出了一种新的框架,用于研究深度学习系统的计算过程。我们关注变压器模型中的残差流(RS),将其视为在各层间进化的动力系统。我们发现,尽管RS不是一个特权基,但个体RS单元的激活在整个层之间表现出强烈的连续性。随着层的增加,RS中的激活加速并变得越来越密集,而个体单元则追踪不稳定的周期轨道。在降维空间中,RS遵循一条弯曲的轨迹,低层具有捕获动态特性。这些洞见将动力系统理论与机制可解释性联系起来,为一种结合理论严谨性和大规模数据分析的“AI神经科学”奠定了基础,以促进我们对现代神经网络的理解。