LLM2D

摘要

对大规模数据集进行自动标注可能会引入噪声训练数据标签，这会对深度神经网络 (DNN) 的学习过程产生负面影响。因此，噪声标签学习 (NLL) 已成为卷积神经网络 (CNN) 的一个关键研究领域，尽管它在视觉Transformer (ViT) 中的探索还比较少。在本研究中，我们评估了 ViT 微调对噪声标签的脆弱性，并将其鲁棒性与 CNN 进行比较。我们还研究了为 CNN 开发的 NLL 方法是否对 ViT 同样有效。使用线性探测和 MLP-K 微调，我们使用三种常用的分类损失对两个 ViT 主干 (ViT-B/16 和 ViT-L/16) 进行了基准测试：交叉熵 (CE)、焦点损失 (FL) 和平均绝对误差 (MAE)，以及六种稳健的 NLL 方法：GCE、SCE、NLNL、APL、NCE+AGCE 和 ANL-CE。评估是在六个数据集上进行的，包括 MNIST、CIFAR-10/100、WebVision、Clothing1M 和 Food-101N。此外，我们探索了隐式预测熵最小化是否有助于 ViT 对噪声标签的鲁棒性，注意到大多数 NLL 方法中预测熵减少的总体趋势。基于此观察，我们检查了显式熵最小化是否可以增强 ViT 对噪声标签的弹性。我们的发现表明，将熵正则化纳入可以增强已建立的损失函数（如 CE 和 FL）的性能，以及六种研究的 NLL 方法在两个 ViT 主干上的鲁棒性。