摘要
arXiv:2502.12031v1 交叉公告类型:自监督学习
摘要:近年来,基于掩蔽潜在变量预测的方法已被证明能够将输入数据编码为强大的表示。然而,在训练过程中,学习到的潜在空间可以通过进一步转换来提取更高层次的信息,这些信息可能更适合下游分类任务。因此,我们提出了一种新方法:掩蔽潜在预测与分类(MATPAC),该方法通过联合解决两个预训练任务进行训练。如同以往的工作,第一个预训练任务是一个掩蔽潜在预测任务,确保潜在空间中的稳健输入表示。第二个任务是非监督分类,利用第一个预训练任务的潜在表示来匹配教师和学生的概率分布。我们通过与其他最先进的提案进行比较和进行消融研究来验证MATPAC方法。MATPAC在参考音频分类数据集(如OpenMIC、GTZAN、ESC-50和US8K)上达到了最先进的自监督学习结果,并且在Magna-tag-a-tune上实现了音乐自动标签任务中可比监督方法的更好表现。