LLM2D

摘要

arXiv:2407.11802v4 宣告类型: replace-cross 摘要：知识蒸馏（KD）旨在将大型教师模型的知识转移到小型学生模型中。虽然对比学习在通过创建区分性表示自我监督学习中显示出前景，但在知识蒸馏中的应用仍然受限，主要侧重于区分性，而忽略了教师模型捕捉到的结构关系。为了弥补这一局限，我们提出了区分性与一致性蒸馏（DCD），该方法结合了对比损失与一致性正则化，以最小化教师和学生表示分布之间的差异。我们的方法引入了学习温度和偏置参数，这些参数在训练过程中适应以平衡这些互补目标，取代了对比学习方法中常用的固定超参数。通过在CIFAR-100和ImageNet ILSVRC-2012上的广泛实验，我们证明了DCD实现了最先进的性能，有时学生模型的准确率甚至超过了教师模型的准确率。此外，我们展示了当将DCD的学习表示转移到Tiny ImageNet和STL-10时，其跨数据集泛化能力更优。