LLM2D
神经ODE变换器:分析内部动力学和自适应微调
Neural ODE Transformers: Analyzing Internal Dynamics and Adaptive Fine-tuning
作者: Anh Tong, Thanh Nguyen-Tang, Dongeun Lee, Duc Nguyen, Toan Tran, David Hall, Cheongwoong Kang, Jaesik Choi
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2503.01329v2

摘要

arXiv:2503.01329v2 宣告类型: replace-cross 摘要:基于变换器架构的大语言模型(LLMs)的近期进展引发了对其内部工作机制的理解兴趣。在本文中,我们引入了一种使用高度灵活的非自主神经常微分方程(ODEs)来建模变换器架构的新方法。我们提出的模型通过神经网络参数化所有注意力和前馈块的权重,将这些权重表示为连续层索引的函数。通过对模型动力学的谱分析,我们揭示了特征值模量的增加,这挑战了现有理论研究中广泛存在的权重共享假设。我们还利用李雅普unov指数来检查token级别的敏感性,从而增强模型的可解释性。我们的神经ODE变换器在各种配置和数据集上的性能与或优于vanilla变换器,同时提供了灵活的可微调能力,可以适应不同的架构约束。