摘要
arXiv:2503.21708v2 公告类型: replace-cross
摘要: 一篇最近的论文提出动态双曲函数(DyT)作为一种用于替代层归一化(LN)的即插即用替代方案。尽管该方法在实践上具有良好的动机并且具有吸引力,但它缺乏理论基础。在本项工作中,我们揭示了层归一化和动态激活函数之间的数学关系。特别是,我们从LN推导出DyT,并表明为了做到这一点需要一个定义明确的近似。通过放弃这种近似,我们获得了一个替代激活函数,我们称之为动态倒数平方根单元(DyISRU)。DyISRU是层归一化的精确对应物,我们通过数值实验表明,与DyT相比,它确实更准确地类似于LN。