摘要
arXiv:2405.01053v4 宣告类型: replace-cross
摘要:在本文中,我们研究了定义良好表示或模型的特征。我们认为这样的表示或模型应具备普遍性,其特征在于:(i) 可区分性:在训练样本上表现良好;(ii) 通用性:在未见过的数据集上表现良好;(iii) 可迁移性:在分布变化的未见过的任务上表现良好。尽管普遍性的重要性不言而喻,但当前的自监督学习(SSL)方法缺乏对普遍性的显式建模,且相关的理论分析尚未充分探索。为了解决这些问题,我们旨在探索并整合普遍性到SSL中。具体来说,我们首先从任务的角度回顾SSL,发现每个迷你批次可以视为一个多类分类任务。然后,我们提出一个普遍性SSL模型应实现:(i) 通过在所有训练样本上最小化损失来学习普遍性,(ii) 通过学习因果不变的表示,从而在未见过的任务上表现良好来进行评估。为了量化这一点,我们引入了一个$\sigma$-测量,用于评估SSL模型与最优任务特定模型之间的性能差距。此外,为建模普遍性,我们提出了GeSSL框架。该框架首先通过最小化SSL损失学习任务特定模型,然后整合未来的更新以增强可区分性,并最终结合这些模型从多个任务中学习。理论和实证证据支持GeSSL的有效性。