LLM2D
固定点分析下tanh神经网络的鲁棒权重初始化
Robust Weight Initialization for Tanh Neural Networks with Fixed Point Analysis
作者: Hyunwoo Lee, Hayoung Choi, Hyunju Kim
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.02242v1

摘要

随着神经网络深度的增加,其泛化性能可以得到显著提升。然而,由于梯度问题,训练变得极具挑战性。已有理论研究和各种方法被提出以解决这些问题。然而,针对不同尺寸的 tanh 神经网络的有效权重初始化方法的研究尚待完善。本文提出了一种针对具有 tanh 激活函数的前馈神经网络的新型权重初始化方法。基于对函数 $\tanh(ax)$ 的不动点的分析,我们提出的方法旨在确定 $a$ 的值,以防止激活饱和。在一系列不同分类数据集上的实验表明,该方法比现有方法对网络尺寸变化更具鲁棒性。此外,当应用于物理信息神经网络时,该方法在偏微分方程问题中表现出比 Xavier 初始化更快的收敛速度和对网络尺寸变化的鲁棒性。