LLM2D
具有判别性和一致性表示蒸馏
Discriminative and Consistent Representation Distillation
作者: Nikolaos Giakoumoglou, Tania Stathaki
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2407.11802v4

摘要

arXiv:2407.11802v4 宣告类型: replace-cross 摘要:知识蒸馏(KD)旨在将大型教师模型的知识转移到小型学生模型中。虽然对比学习在通过创建区分性表示自我监督学习中显示出前景,但在知识蒸馏中的应用仍然受限,主要侧重于区分性,而忽略了教师模型捕捉到的结构关系。为了弥补这一局限,我们提出了区分性与一致性蒸馏(DCD),该方法结合了对比损失与一致性正则化,以最小化教师和学生表示分布之间的差异。我们的方法引入了学习温度和偏置参数,这些参数在训练过程中适应以平衡这些互补目标,取代了对比学习方法中常用的固定超参数。通过在CIFAR-100和ImageNet ILSVRC-2012上的广泛实验,我们证明了DCD实现了最先进的性能,有时学生模型的准确率甚至超过了教师模型的准确率。此外,我们展示了当将DCD的学习表示转移到Tiny ImageNet和STL-10时,其跨数据集泛化能力更优。