摘要
arXiv:2407.12073v5 通知类型: replace-cross
摘要:知识蒸馏涉及将大型笨重的教师模型的知识转移到更紧凑的学生模型中。标准方法通过最小化教师网络和学生网络的概率输出之间的Kullback-Leibler (KL) 散度来进行。然而,这种方法未能捕捉教师内部表示中的重要结构关系。近年来的进展转向使用对比学习目标,但这些方法通过实例区分施加了过于严格的约束,即使样本在语义上是相似的,也强制它们分开。这促使我们提出另一种目标方法,通过该方法可以保留实例之间的相对关系。我们的方法为教师分布和学生分布分别使用不同的温度参数,学生输出更尖锐,从而可以在捕捉主要关系的同时保留次要的相似性。我们展示了我们的目标与InfoNCE损失和KL散度之间的理论联系。实验结果表明,我们的方法在多种知识迁移任务中显著优于现有知识蒸馏方法,与教师模型的对齐程度更高,有时甚至优于教师网络的表现。