LLM2D

摘要

arXiv:2503.01329v2 宣告类型: replace-cross 摘要：基于变换器架构的大语言模型（LLMs）的近期进展引发了对其内部工作机制的理解兴趣。在本文中，我们引入了一种使用高度灵活的非自主神经常微分方程（ODEs）来建模变换器架构的新方法。我们提出的模型通过神经网络参数化所有注意力和前馈块的权重，将这些权重表示为连续层索引的函数。通过对模型动力学的谱分析，我们揭示了特征值模量的增加，这挑战了现有理论研究中广泛存在的权重共享假设。我们还利用李雅普unov指数来检查token级别的敏感性，从而增强模型的可解释性。我们的神经ODE变换器在各种配置和数据集上的性能与或优于vanilla变换器，同时提供了灵活的可微调能力，可以适应不同的架构约束。