LLM2D
具有Z分数梯度滤波的sharpness-aware最小化用于神经网络
Sharpness-Aware Minimization with Z-Score Gradient Filtering for Neural Networks
作者: Juyoung Yun
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2505.02369v3

摘要

arXiv:2505.02369v3 宣告类型: replace-cross 摘要:尖度意识最小化(SAM)通过在参数的邻域内优化最坏情况损失来改进神经网络的泛化能力,但在使用整个梯度向量进行参数扰动时,包括统计意义较低的组件。我们引入了ZSharp,这是一种改进的尖度意识优化方法,结合了逐层Z分数归一化和基于百分位数的筛选。此过程仅选择梯度组件中最具统计意义的那些——梯度标准化后的绝对值较大——来构建扰动方向。ZSharp 维持了标准的两阶段 SAM 结构(上升和下降),但在上升步骤中侧重于更尖锐且与曲率相关的方向。我们在使用 ResNet、VGG 和视觉变换器等模型的 CIFAR-10、CIFAR-100 和 Tiny-ImageNet 数据集上评估了 ZSharp。在所有架构和数据集上,ZSharp 在测试准确率方面一直优于 SAM、ASAM 和 Friendly-SAM。这些结果表明,基于Z分数的梯度筛选可以增强更新方向的尖锐度敏感性,从而提高深度神经网络训练的泛化能力。