摘要
arXiv:2412.09388v2 公告类型:替换交叉
摘要:知识蒸馏(KD)对于将大型教师网络的暗知识转移到小型学生网络中至关重要,从而使得学生网络可以比教师网络更高效,但具有相当的精度。现有的KD方法依赖于专门针对目标任务训练的大型教师网络,这既非常不灵活,也不高效。在本文中,我们argue认为,可以通过半监督预训练模型有效地充当教师,并可以通过其中特征所在的坐标系统或线性子空间来捕获其暗知识。然后我们只需对教师网络进行一次前向传递,然后为学生网络定制坐标系统(TCS)。我们的TCS方法不需要教师模型,并适用于各种架构,适用于KD和实际的少样本学习,并允许具有大容量差距的跨架构蒸馏。实验结果显示,与现有的KD方法相比,TCS方法在准确率方面显著更高,同时只需要大约一半的训练时间和GPU内存成本。