摘要
arXiv:2505.02369v2 宣告类型:交叉
摘要:在深度神经网络中实现良好的泛化仍然是一个核心挑战,特别是由于它们倾向于收敛到退化鲁棒性的尖锐最小值。通过寻找更平坦的最小值来减轻这种现象的 Sharpness-Aware Minimization (SAM) 方法虽然有效,但也使用完整梯度来进行参数扰动,这可能包括统计上不重要的方向。我们提出了 ZSharp,这是一种简单的有效扩展 SAM 的方法,它在逐层应用 Z 分数规范化后,通过百分位数过滤来保留仅有统计上重要的梯度分量。这种选择性的扰动使更新与曲率敏感的方向对齐,从而提高泛化能力,而无需进行架构更改。ZSharp 引入了唯一的额外超参数,即百分位数阈值,并且与现有的 SAM 变体完全兼容。在使用 ResNet、VGG 和 Vision Transformers 的 CIFAR-10、CIFAR-100 和 Tiny-ImageNet 数据集上的实验表明,ZSharp 在测试准确率方面始终优于 SAM 及其变体,尤其是在更深层和基于变换器的模型中表现更为突出。这些结果表明,ZSharp 是一个基于原理且轻量级的增强方法,适用于尖锐感知优化。