LLM2D

摘要

探索损失函数的景观可以深入了解深度神经网络（DNN）的内在原理。最近的研究表明，除了平坦和尖锐的谷外，还存在另一种不对称的谷，但尚未彻底检查其原因或影响。我们的研究系统地探索了影响DNN谷对称性的因素，包括：（1）影响收敛点的数据集、网络架构、初始化和超参数；以及（2）用于一维可视化的噪声的大小和方向。我们的主要观察结果表明，噪声和收敛点之间*符号一致性的程度*是谷对称性的关键指标。ReLU激活函数和softmax函数方面的理论见解可以解释这种有趣的现象。我们的发现推动了模型融合场景中新的理解和应用：（1）插值独立模型的有效性与其符号一致性比率显着相关，以及（2）在联邦学习中施加符号对齐成为模型参数对齐的一种创新方法。