LLM2D

摘要

arXiv:2407.11802v5 宣告类型: replace-cross 摘要：知识蒸馏（KD）的目标是将大型教师模型的知识转移到较小的学生模型中。虽然对比学习在自监督学习中通过创建鉴别性表示显示出前景，但其在知识蒸馏中的应用仍然有限，并主要集中在辨别性上，忽视了教师模型捕捉到的结构关系。为解决这一局限，我们提出了鉴别性和一致性蒸馏（DCD），该方法结合了对比损失和一致性正则化，以最小化教师和学生表示分布之间的差异。我们的方法引入了可学习的温度和偏差参数，在训练过程中根据这些互补目标进行调整，替代了对比学习方法中常用的固定超参数。通过在CIFAR-100和ImageNet ILSVRC-2012上的广泛实验，我们展示了DCD达到了最先进的性能，有时学生模型的准确率甚至超过了教师模型。此外，我们还展示了当将DCD的学习表示转移到Tiny ImageNet和STL-10时，其表现出优越的跨数据集泛化能力。