LLM2D
深度神经网络非对称谷的探索与利用
Exploring and Exploiting the Asymmetric Valley of Deep Neural Networks
作者: Xin-Chun Li, Jin-Lin Tang, Bo Zhang, Lan Li, De-Chuan Zhan
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2405.12489v4

摘要

探索损失函数的景观可以深入了解深度神经网络(DNN)的内在原理。最近的研究表明,除了平坦和尖锐的谷外,还存在另一种不对称的谷,但尚未彻底检查其原因或影响。我们的研究系统地探索了影响DNN谷对称性的因素,包括:(1)影响收敛点的数据集、网络架构、初始化和超参数;以及(2)用于一维可视化的噪声的大小和方向。我们的主要观察结果表明,噪声和收敛点之间*符号一致性的程度*是谷对称性的关键指标。ReLU激活函数和softmax函数方面的理论见解可以解释这种有趣的现象。我们的发现推动了模型融合场景中新的理解和应用:(1)插值独立模型的有效性与其符号一致性比率显着相关,以及(2)在联邦学习中施加符号对齐成为模型参数对齐的一种创新方法。