LLM2D
基于相关性匹配的强教师高效鲁棒知识蒸馏
Efficient and Robust Knowledge Distillation from A Stronger Teacher Based on Correlation Matching
作者: Wenqi Niu, Yingchao Wang, Guohui Cai, Hanpo Hou
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.06561v1

摘要

知识蒸馏(KD)已成为神经网络压缩和性能提升的关键技术。大多数 KD 方法旨在基于 Kullback-Leibler (KL) 散度损失,将庞大的教师模型中的暗知识转移到轻量级的学生模型。然而,通过 KD 实现的学生性能提升表现出边际收益递减,即更强大的教师模型并不一定能带来比例上更强大的学生模型。为了解决这个问题,我们通过实验证明,基于 KL 的 KD 方法可能会隐式地改变学生模型学习的类间关系,导致更复杂和模糊的决策边界,进而降低模型的准确性和泛化能力。因此,本研究认为学生模型不仅应该学习教师输出的概率值,还应该学习类的相对排名,并提出了一种新颖的相关性匹配知识蒸馏 (CMKD) 方法,该方法结合了基于 Pearson 和 Spearman 相关系数的 KD 损失,以从更强大的教师模型实现更有效和鲁棒的蒸馏。此外,考虑到样本难度不同,CMKD 动态调整基于 Pearson 的损失和基于 Spearman 的损失的权重。CMKD 简洁实用,大量实验表明它可以在 CIRAR-100 和 ImageNet 上始终如一地取得最先进的性能,并且能够很好地适应各种教师架构、大小和其他 KD 方法。