LLM2D

摘要

arXiv:2408.17059v2 公告类型: 替换-交叉摘要: 深度监督学习模型需要大量标注数据才能获得足够好的结果。然而，收集和标注如此庞大的数据既昂贵又费力。近年来，自监督学习（SSL）在视觉任务中的应用引起了广泛关注。SSL的直觉在于利用数据内部的同步关系作为自我监督的形式，这种形式具有多样性。在当前的大数据时代，大多数数据都是未标注的，因此SSL的成功依赖于找到利用这些大量未标注数据的方法。因此，深度学习算法减少对人类监督的依赖，转而专注于基于数据内部关系的自我监督，是更好的选择。随着视觉变换器（ViTs）的出现，这些模型在计算机视觉中取得了显著成果，探索和理解在有限标注数据情况下训练这些模型所采用的各种SSL机制变得至关重要。在本综述中，我们建立了一个系统的分类法，根据其表示和应用的预训练任务对SSL技术进行分类。此外，我们讨论了SSL背后的动机，回顾了流行的预训练任务，并突出了该领域的挑战和进展。此外，我们对不同的SSL方法进行了比较分析，评估了它们的优缺点，并确定了未来研究的潜在方向。