LLM2D

摘要

arXiv:2505.02369v2 宣告类型：交叉摘要：在深度神经网络中实现良好的泛化仍然是一个核心挑战，特别是由于它们倾向于收敛到退化鲁棒性的尖锐最小值。通过寻找更平坦的最小值来减轻这种现象的 Sharpness-Aware Minimization (SAM) 方法虽然有效，但也使用完整梯度来进行参数扰动，这可能包括统计上不重要的方向。我们提出了 ZSharp，这是一种简单的有效扩展 SAM 的方法，它在逐层应用 Z 分数规范化后，通过百分位数过滤来保留仅有统计上重要的梯度分量。这种选择性的扰动使更新与曲率敏感的方向对齐，从而提高泛化能力，而无需进行架构更改。ZSharp 引入了唯一的额外超参数，即百分位数阈值，并且与现有的 SAM 变体完全兼容。在使用 ResNet、VGG 和 Vision Transformers 的 CIFAR-10、CIFAR-100 和 Tiny-ImageNet 数据集上的实验表明，ZSharp 在测试准确率方面始终优于 SAM 及其变体，尤其是在更深层和基于变换器的模型中表现更为突出。这些结果表明，ZSharp 是一个基于原理且轻量级的增强方法，适用于尖锐感知优化。