LLM2D

摘要

arXiv:2502.12131v1 宣称类型: 新摘要: 随着人工智能模型在规模和能力上爆炸式增长，对其内部机制的理解仍然是一个关键挑战。受到神经科学中动力系统方法成功的启发，我们在此提出了一种新的框架，用于研究深度学习系统的计算过程。我们关注变压器模型中的残差流（RS），将其视为在各层间进化的动力系统。我们发现，尽管RS不是一个特权基，但个体RS单元的激活在整个层之间表现出强烈的连续性。随着层的增加，RS中的激活加速并变得越来越密集，而个体单元则追踪不稳定的周期轨道。在降维空间中，RS遵循一条弯曲的轨迹，低层具有捕获动态特性。这些洞见将动力系统理论与机制可解释性联系起来，为一种结合理论严谨性和大规模数据分析的“AI神经科学”奠定了基础，以促进我们对现代神经网络的理解。