LLM2D
元素级层Normalization
Elementwise Layer Normalization
作者: Felix Stollenwerk
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2503.21708v1

摘要

arXiv:2503.21708v1 Announce Type: cross 摘要:一篇最近的文章提出了动态双曲函数(DyT)作为层规范化(Layer Normalization)的即插即用替代方案。尽管该方法在实践中具有很强的经验动机和吸引力,但在理论上缺乏基础。在这个工作中,我们从数学上推导了DyT,并指出需要一个明确的近似以做到这一点。通过去掉这种近似,我们得到了一种元素级变换,称之为元素层规范化(ELN)。我们证明,与DyT相比,ELN更准确地模仿了层规范化。