LLM2D
多尺度特征解耦的对比表示蒸馏
Contrastive Representation Distillation via Multi-Scale Feature Decoupling
作者: Cuipeng Wang, Tieyuan Chen, Haipeng Wang
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.05835v1

摘要

arXiv:2502.05835v1 宣告类型: cross 摘要:知识蒸馏是一种技术,旨在通过从较大且预先训练好的教师网络转移知识来增强较小的学生网络的性能,而无需增加其参数量。此前的方法主要集中在蒸馏全局特征信息,而忽视了不同特征区域嵌入的多样化信息的重要性。在本工作中,我们首次在特征转移过程中引入多尺度解耦,解耦后的局部特征将分别处理并与其他对比学习方法集成。此外,与之前的基于对比学习的知识蒸馏方法相比,我们的方法不仅减少了计算成本,还提高了效率,使得仅使用单批次样本便能够提升学生网络的性能。在CIFAR-100和ImageNet上的 extensive 评估表明了我们方法的优势,其中有些使用我们方法蒸馏的学生网络甚至超过了其预先训练的教师网络的性能。这些结果突显了我们方法在帮助学生网络全面吸收教师网络知识方面的有效性。