摘要
arXiv:2403.06869v3 宣布类型: 替换-交叉
摘要:基础模型通常在大规模数据集上进行预训练,然后通过调整适应下游任务。然而,这些大规模预训练数据集往往不可获取或处理成本高昂,其中可能包含标签噪声,这可能会不利地影响模型的泛化能力并带来意想不到的风险。本文首次全面理解并分析了预训练数据集中的噪声本质,并有效减轻其对下游任务的影响。具体来说,通过在合成的带有噪声ImageNet-1K、YFCC15M和CC12M数据集上进行全面的全监督和图像-文本对比预训练实验,我们证明,在领域内(ID)任务中,轻微的预训练噪声可以提升性能,这是因为训练数据和测试数据具有相似的分布;而在领域外(OOD)任务中,训练数据和测试数据分布差异显著时,轻微的预训练噪声则会恶化性能。这些观察结果不受预训练数据集规模、预训练噪声类型、模型架构、预训练目标、下游调整方法和下游应用的影响。我们实验证实,这是因为预训练噪声以不同的方式重塑了特征空间。然后,我们提出了一种调整方法(NMTune),通过对特征空间进行仿射调整来减轻噪声的恶性影响并提高泛化能力,该方法适用于参数高效调整和黑盒调整方式。此外,我们还在包括API在内的流行视觉和语言模型上进行了广泛的实验,这些模型在现实中的噪声数据上进行了监督和自我监督预训练以进行评估。我们的分析和结果证明了这一新颖且基本的研究方向的重要性,我们将其称为扰动模型学习。