摘要
arXiv:2408.17059v2 公告类型: 替换-交叉 摘要: 深度监督学习模型需要大量标注数据才能获得足够好的结果。然而,收集和标注如此庞大的数据既昂贵又费力。近年来,自监督学习(SSL)在视觉任务中的应用引起了广泛关注。SSL的直觉在于利用数据内部的同步关系作为自我监督的形式,这种形式具有多样性。在当前的大数据时代,大多数数据都是未标注的,因此SSL的成功依赖于找到利用这些大量未标注数据的方法。因此,深度学习算法减少对人类监督的依赖,转而专注于基于数据内部关系的自我监督,是更好的选择。随着视觉变换器(ViTs)的出现,这些模型在计算机视觉中取得了显著成果,探索和理解在有限标注数据情况下训练这些模型所采用的各种SSL机制变得至关重要。在本综述中,我们建立了一个系统的分类法,根据其表示和应用的预训练任务对SSL技术进行分类。此外,我们讨论了SSL背后的动机,回顾了流行的预训练任务,并突出了该领域的挑战和进展。此外,我们对不同的SSL方法进行了比较分析,评估了它们的优缺点,并确定了未来研究的潜在方向。