LLM2D
戈mpertz线性单元:利用不对称性以增强学习动态
Gompertz Linear Units: Leveraging Asymmetry for Enhanced Learning Dynamics
作者: Indrashis Das, Mahmoud Safari, Steven Adriaensen, Frank Hutter
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2502.03654v1

摘要

arXiv:2502.03654v1 类型: 交叉 摘要:激活函数是深度学习架构中的基本元素,因为它们显著影响训练动态。虽然ReLU在广泛应用中,但由于其导致神经元死亡的问题而弊端明显,这一问题已被LeakyReLU、PReLU和ELU等改进版本所缓解,这些改进版本更好地解决了负神经元输出的问题。最近,自门控激活函数如GELU和Swish因其平滑性脱颖而出,依靠这种平滑性确保梯度流的稳定性并防止神经元的无效活动。在本文中,我们提出了GoLu(Gompertz Linear Unit)激活函数,这是一种新的自门控激活函数,定义为 \(\mathrm{GoLU}(x) = x \, \mathrm{Gompertz}(x)\),其中 \(\mathrm{Gompertz}(x) = e^{-e^{-x}}\)。GoLu激活函数利用Gompertz函数的不对称性,相比GELU和Swish更有效地减少潜在空间中的方差,同时保持稳健的梯度流。在图像分类、语言建模、语义分割、目标检测、实例分割和扩散等多样任务的广泛实验中,GoLu表现出优于最新激活函数的性能,确立了GoLu作为现有激活函数的稳健替代品的地位。