摘要
标签平滑(LS)是一种流行的神经网络训练正则化方法,它在提高测试准确率方面非常有效,并且易于实现。通过将概率质量均匀分布到其他类别,硬独热标签被平滑,从而减少过度拟合。先前的工作表明,在某些情况下,LS 会降低选择性分类(SC)的性能,而 SC 的目标是利用模型的不确定性来拒绝误分类。在本研究中,我们首先通过对一系列大规模任务和架构进行实证研究,证明 LS 始终会导致 SC 性能下降。然后,我们填补了现有知识的空白,通过分析logit级别的梯度来解释这种现象:LS 通过在预测正确时更多地正则化最大logit,而在预测错误时更少地正则化最大logit,从而降低了正确预测与错误预测的不确定性排序。这解释了先前报道的强分类器在 SC 中表现不佳的实验结果。然后,我们证明了事后logit归一化在恢复因 LS 导致的 SC 性能下降方面的有效性。此外,我们再次将分析结果与我们的梯度分析联系起来,并解释了这种归一化方法有效的原因。