LLM2D

摘要

arXiv:2502.03654v1 类型: 交叉摘要：激活函数是深度学习架构中的基本元素，因为它们显著影响训练动态。虽然ReLU在广泛应用中，但由于其导致神经元死亡的问题而弊端明显，这一问题已被LeakyReLU、PReLU和ELU等改进版本所缓解，这些改进版本更好地解决了负神经元输出的问题。最近，自门控激活函数如GELU和Swish因其平滑性脱颖而出，依靠这种平滑性确保梯度流的稳定性并防止神经元的无效活动。在本文中，我们提出了GoLu（Gompertz Linear Unit）激活函数，这是一种新的自门控激活函数，定义为 \(\mathrm{GoLU}(x) = x \, \mathrm{Gompertz}(x)\)，其中 \(\mathrm{Gompertz}(x) = e^{-e^{-x}}\)。GoLu激活函数利用Gompertz函数的不对称性，相比GELU和Swish更有效地减少潜在空间中的方差，同时保持稳健的梯度流。在图像分类、语言建模、语义分割、目标检测、实例分割和扩散等多样任务的广泛实验中，GoLu表现出优于最新激活函数的性能，确立了GoLu作为现有激活函数的稳健替代品的地位。