LLM2D

摘要

arXiv:2412.09388v2 公告类型：替换交叉摘要：知识蒸馏（KD）对于将大型教师网络的暗知识转移到小型学生网络中至关重要，从而使得学生网络可以比教师网络更高效，但具有相当的精度。现有的KD方法依赖于专门针对目标任务训练的大型教师网络，这既非常不灵活，也不高效。在本文中，我们argue认为，可以通过半监督预训练模型有效地充当教师，并可以通过其中特征所在的坐标系统或线性子空间来捕获其暗知识。然后我们只需对教师网络进行一次前向传递，然后为学生网络定制坐标系统（TCS）。我们的TCS方法不需要教师模型，并适用于各种架构，适用于KD和实际的少样本学习，并允许具有大容量差距的跨架构蒸馏。实验结果显示，与现有的KD方法相比，TCS方法在准确率方面显著更高，同时只需要大约一半的训练时间和GPU内存成本。