LLM2D
层归一化与动态激活函数之间的数学关系
The Mathematical Relationship Between Layer Normalization and Dynamic Activation Functions
作者: Felix Stollenwerk
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.21708v2

摘要

arXiv:2503.21708v2 公告类型: replace-cross 摘要: 一篇最近的论文提出动态双曲函数(DyT)作为一种用于替代层归一化(LN)的即插即用替代方案。尽管该方法在实践上具有良好的动机并且具有吸引力,但它缺乏理论基础。在本项工作中,我们揭示了层归一化和动态激活函数之间的数学关系。特别是,我们从LN推导出DyT,并表明为了做到这一点需要一个定义明确的近似。通过放弃这种近似,我们获得了一个替代激活函数,我们称之为动态倒数平方根单元(DyISRU)。DyISRU是层归一化的精确对应物,我们通过数值实验表明,与DyT相比,它确实更准确地类似于LN。