LLM2D
基于空间相似性的简单无监督知识蒸馏
Simple Unsupervised Knowledge Distillation With Space Similarity
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13939v1

摘要

arXiv:2409.13939v1 公告类型: 新论文 摘要: 根据最近的研究,自监督学习(SSL)并不容易扩展到较小的架构。为了缓解这一缺陷,同时在没有标签的情况下训练较小的网络,一种方法是采用无监督知识蒸馏(UKD)。现有的UKD方法手工设计了教师和学生之间值得保留的样本间/样本内关系。然而,这可能会忽略/忽视教师映射中存在的其他关键关系。在本文中,我们不是通过启发式方法构建样本间的关系,而是直接激励学生模型教师嵌入流形。如果映射的流形相似,所有样本间/样本内的关系都会间接保留。我们首先证明,由于仅依赖于$L_2$归一化嵌入特征,先前的方法无法保留教师的潜在流形。随后,我们提出了一个简单的目标来捕捉由于归一化而丢失的信息。我们提出的损失组件,称为\textbf{空间相似性},激励学生的每个特征空间的维度与教师的相应维度相似。我们进行了广泛的实验,证明了我们提出的方法在各种基准测试中表现出色。