LLM2D

摘要

尽管Transformer被认为是计算机视觉的新标准，但在数据量有限的情况下，卷积神经网络（CNN）仍然优于它们。然而，CNN 经常根据输入图像的狭窄、特定区域做出决策，尤其是在训练数据有限的情况下。这种行为会严重损害模型的泛化能力，使其过度依赖某些特征，而这些特征可能无法代表图像的更广泛语境。虽然导致这种现象的原因仍然难以捉摸，但这篇文章的主要目的是阐明这种观察到的神经网络行为。我们的研究努力优先考虑全面洞察并概述对此现象的初步应对。为此，我们引入了显著性引导Dropout（SGDrop），这是一种针对解决此特定问题的开创性正则化方法。SGDrop 利用特征图上的归因方法来识别并减少训练期间最显著特征的影响。这个过程鼓励网络分散其注意力，而不是仅仅关注特定的突出区域。我们在多个视觉分类基准上的实验验证了 SGDrop 在增强泛化能力方面的作用。重要的是，包含 SGDrop 的模型显示出更广泛的归因和神经活动，与传统训练的模型相比，提供了对输入图像的更全面的视图。