LLM2D
隐式到显式熵正则化:噪声标签下 ViT 微调的基准测试
Implicit to Explicit Entropy Regularization: Benchmarking ViT Fine-tuning under Noisy Labels
作者: Maria Marrium, Arif Mahmood, Mohammed Bennamoun
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.04256v1

摘要

对大规模数据集进行自动标注可能会引入噪声训练数据标签,这会对深度神经网络 (DNN) 的学习过程产生负面影响。因此,噪声标签学习 (NLL) 已成为卷积神经网络 (CNN) 的一个关键研究领域,尽管它在视觉Transformer (ViT) 中的探索还比较少。在本研究中,我们评估了 ViT 微调对噪声标签的脆弱性,并将其鲁棒性与 CNN 进行比较。我们还研究了为 CNN 开发的 NLL 方法是否对 ViT 同样有效。使用线性探测和 MLP-K 微调,我们使用三种常用的分类损失对两个 ViT 主干 (ViT-B/16 和 ViT-L/16) 进行了基准测试:交叉熵 (CE)、焦点损失 (FL) 和平均绝对误差 (MAE),以及六种稳健的 NLL 方法:GCE、SCE、NLNL、APL、NCE+AGCE 和 ANL-CE。评估是在六个数据集上进行的,包括 MNIST、CIFAR-10/100、WebVision、Clothing1M 和 Food-101N。此外,我们探索了隐式预测熵最小化是否有助于 ViT 对噪声标签的鲁棒性,注意到大多数 NLL 方法中预测熵减少的总体趋势。基于此观察,我们检查了显式熵最小化是否可以增强 ViT 对噪声标签的弹性。我们的发现表明,将熵正则化纳入可以增强已建立的损失函数(如 CE 和 FL)的性能,以及六种研究的 NLL 方法在两个 ViT 主干上的鲁棒性。