摘要
arXiv:2504.16667v1 自监督表示学习方法
摘要:标记数据通常非常耗时且昂贵,使得我们有大量的未标记数据。类似SimCLR(Chen等,2020)或BYOL(Grill等,2020)的自监督表示学习方法在从未标记图像数据中学习有意义的潜在表示方面非常成功,从而产生了更通用和更可迁移的表示用于下游任务。总体而言,自监督方法可分为两类:1)对比方法,如SimCLR;2)非对比方法,如BYOL。对比方法通常试图最大化相关数据点之间的互信息,因此需要将每一个数据点与其他每一个数据点进行比较,导致高方差,从而需要较大的批量大小才能很好地工作。非对比方法如BYOL的方差要低得多,因为它们不需要进行成对比较,但实现起来更为棘手,因为有退化到常向量的可能性。在本文中,我们旨在开发一种结合了这两种方法优势的自监督目标。我们从一种特定的对比方法——光谱对比损失(HaoChen等,2021;Lu等,2024)开始,并将其转换为更通用的非对比形式;这消除了成对比较,从而减少了方差,但仍保留了对比方法的互信息形式,防止退化。我们称我们的新目标为互信息非对比损失(MINC损失)。我们通过在ImageNet上学习图像表示(类似于SimCLR和BYOL)来测试MINC,并展示了它在光谱对比损失基线上的持续改进效果。