LLM2D

摘要

arXiv:2405.01053v4 宣告类型: replace-cross 摘要：在本文中，我们研究了定义良好表示或模型的特征。我们认为这样的表示或模型应具备普遍性，其特征在于：(i) 可区分性：在训练样本上表现良好；(ii) 通用性：在未见过的数据集上表现良好；(iii) 可迁移性：在分布变化的未见过的任务上表现良好。尽管普遍性的重要性不言而喻，但当前的自监督学习（SSL）方法缺乏对普遍性的显式建模，且相关的理论分析尚未充分探索。为了解决这些问题，我们旨在探索并整合普遍性到SSL中。具体来说，我们首先从任务的角度回顾SSL，发现每个迷你批次可以视为一个多类分类任务。然后，我们提出一个普遍性SSL模型应实现：(i) 通过在所有训练样本上最小化损失来学习普遍性，(ii) 通过学习因果不变的表示，从而在未见过的任务上表现良好来进行评估。为了量化这一点，我们引入了一个$\sigma$-测量，用于评估SSL模型与最优任务特定模型之间的性能差距。此外，为建模普遍性，我们提出了GeSSL框架。该框架首先通过最小化SSL损失学习任务特定模型，然后整合未来的更新以增强可区分性，并最终结合这些模型从多个任务中学习。理论和实证证据支持GeSSL的有效性。