LLM2D
判别性和一致性表示精炼
Discriminative and Consistent Representation Distillation
作者: Nikolaos Giakoumoglou, Tania Stathaki
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2407.11802v5

摘要

arXiv:2407.11802v5 宣告类型: replace-cross 摘要:知识蒸馏(KD)的目标是将大型教师模型的知识转移到较小的学生模型中。虽然对比学习在自监督学习中通过创建鉴别性表示显示出前景,但其在知识蒸馏中的应用仍然有限,并主要集中在辨别性上,忽视了教师模型捕捉到的结构关系。为解决这一局限,我们提出了鉴别性和一致性蒸馏(DCD),该方法结合了对比损失和一致性正则化,以最小化教师和学生表示分布之间的差异。我们的方法引入了可学习的温度和偏差参数,在训练过程中根据这些互补目标进行调整,替代了对比学习方法中常用的固定超参数。通过在CIFAR-100和ImageNet ILSVRC-2012上的广泛实验,我们展示了DCD达到了最先进的性能,有时学生模型的准确率甚至超过了教师模型。此外,我们还展示了当将DCD的学习表示转移到Tiny ImageNet和STL-10时,其表现出优越的跨数据集泛化能力。