LLM2D

摘要

知识蒸馏（KD）已成为神经网络压缩和性能提升的关键技术。大多数 KD 方法旨在基于 Kullback-Leibler (KL) 散度损失，将庞大的教师模型中的暗知识转移到轻量级的学生模型。然而，通过 KD 实现的学生性能提升表现出边际收益递减，即更强大的教师模型并不一定能带来比例上更强大的学生模型。为了解决这个问题，我们通过实验证明，基于 KL 的 KD 方法可能会隐式地改变学生模型学习的类间关系，导致更复杂和模糊的决策边界，进而降低模型的准确性和泛化能力。因此，本研究认为学生模型不仅应该学习教师输出的概率值，还应该学习类的相对排名，并提出了一种新颖的相关性匹配知识蒸馏 (CMKD) 方法，该方法结合了基于 Pearson 和 Spearman 相关系数的 KD 损失，以从更强大的教师模型实现更有效和鲁棒的蒸馏。此外，考虑到样本难度不同，CMKD 动态调整基于 Pearson 的损失和基于 Spearman 的损失的权重。CMKD 简洁实用，大量实验表明它可以在 CIRAR-100 和 ImageNet 上始终如一地取得最先进的性能，并且能够很好地适应各种教师架构、大小和其他 KD 方法。