摘要
arXiv:2505.04375v1 宣告类型:交叉
摘要:在ImageNet上微调预训练的卷积神经网络用于下游任务是众所周知的。然而,在类似场景下,特别是在标签噪声存在的情况下,视觉变压器的模型大小对其性能的影响仍然有待探索。鉴于变压器架构的实用性和灵活性,本研究探讨了在预算有限和标签噪声环境下这些架构的实际应用。我们研究了对称标签噪声在主动学习设置下如何影响分类准确性和校准情况,评估了四个视觉变压器配置(具有16x16和32x32像素块大小的Base和Large模型)和三个Swin Transformer配置(Tiny、Small和Base模型)在CIFAR10和CIFAR100数据集上的性能,不同的标签噪声率。我们的发现表明,在中等到高标签噪声水平下,较大的ViT模型(特别是ViTl32)在准确性和校准方面始终优于较小的模型,而Swin Transformer在所有噪声水平下表现出较弱的鲁棒性。我们发现,较小的像素块大小并不总是导致更好的性能,因为ViTl16在准确性和ViTl32相比方面表现更差,同时计算成本更高。我们还发现,基于信息的主动学习策略只有在中等标签噪声率下才提供有意义的准确度改进,但它们在校准方面比在随机获取标签上训练的模型表现更差,特别是在高标签噪声率下。我们希望这些见解为在资源受限的环境中部署视觉变压器的实践者提供可操作的指导,在这种环境中,平衡模型复杂性、标签噪声和计算效率对于模型微调或知识蒸馏至关重要。