LLM2D

摘要

标签平滑（LS）是一种流行的神经网络训练正则化方法，它在提高测试准确率方面非常有效，并且易于实现。通过将概率质量均匀分布到其他类别，硬独热标签被平滑，从而减少过度拟合。先前的工作表明，在某些情况下，LS 会降低选择性分类（SC）的性能，而 SC 的目标是利用模型的不确定性来拒绝误分类。在本研究中，我们首先通过对一系列大规模任务和架构进行实证研究，证明 LS 始终会导致 SC 性能下降。然后，我们填补了现有知识的空白，通过分析logit级别的梯度来解释这种现象：LS 通过在预测正确时更多地正则化最大logit，而在预测错误时更少地正则化最大logit，从而降低了正确预测与错误预测的不确定性排序。这解释了先前报道的强分类器在 SC 中表现不佳的实验结果。然后，我们证明了事后logit归一化在恢复因 LS 导致的 SC 性能下降方面的有效性。此外，我们再次将分析结果与我们的梯度分析联系起来，并解释了这种归一化方法有效的原因。