摘要
arXiv:2503.01329v2 宣告类型: replace-cross
摘要:基于变换器架构的大语言模型(LLMs)的近期进展引发了对其内部工作机制的理解兴趣。在本文中,我们引入了一种使用高度灵活的非自主神经常微分方程(ODEs)来建模变换器架构的新方法。我们提出的模型通过神经网络参数化所有注意力和前馈块的权重,将这些权重表示为连续层索引的函数。通过对模型动力学的谱分析,我们揭示了特征值模量的增加,这挑战了现有理论研究中广泛存在的权重共享假设。我们还利用李雅普unov指数来检查token级别的敏感性,从而增强模型的可解释性。我们的神经ODE变换器在各种配置和数据集上的性能与或优于vanilla变换器,同时提供了灵活的可微调能力,可以适应不同的架构约束。