LLM2D

摘要

arXiv:2409.13939v1 公告类型: 新论文摘要: 根据最近的研究，自监督学习（SSL）并不容易扩展到较小的架构。为了缓解这一缺陷，同时在没有标签的情况下训练较小的网络，一种方法是采用无监督知识蒸馏（UKD）。现有的UKD方法手工设计了教师和学生之间值得保留的样本间/样本内关系。然而，这可能会忽略/忽视教师映射中存在的其他关键关系。在本文中，我们不是通过启发式方法构建样本间的关系，而是直接激励学生模型教师嵌入流形。如果映射的流形相似，所有样本间/样本内的关系都会间接保留。我们首先证明，由于仅依赖于$L_2$归一化嵌入特征，先前的方法无法保留教师的潜在流形。随后，我们提出了一个简单的目标来捕捉由于归一化而丢失的信息。我们提出的损失组件，称为\textbf{空间相似性}，激励学生的每个特征空间的维度与教师的相应维度相似。我们进行了广泛的实验，证明了我们提出的方法在各种基准测试中表现出色。