LLM2D
教师嵌入的线性投影用于少类蒸馏
Linear Projections of Teacher Embeddings for Few-Class Distillation
作者: Noel Loo, Fotis Iliopoulos, Wei Hu, Erik Vee
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2409.20449v2

摘要

知识蒸馏(KD)已成为将知识从更大、更复杂的教师模型转移到更小的学生模型的一种很有前景的方法。传统上,KD 涉及训练学生模仿教师的输出概率,而更先进的技术则探索指导学生采用教师的内部表示。尽管 KD 取得了广泛的成功,但它在二元分类和少数类别问题中的性能并不令人满意。这是因为教师模型泛化模式的信息量直接与类别数量成正比。此外,一些复杂的蒸馏方法可能不适用于所有类型的数据,或者对于计算机视觉以外的数据类型效果不佳。因此,对于一系列关键的现实世界应用,如情感分析、搜索查询理解和广告查询相关性评估,有效的蒸馏技术仍然难以捉摸。考虑到这些观察结果,我们提出了一种从教师模型表示中蒸馏知识的新方法,我们将其称为学习嵌入线性投影(LELP)。受关于最终层表示结构的最新发现的启发,LELP 通过识别教师嵌入空间中的信息性线性子空间,并将它们分成伪子类来工作。然后训练学生模型来复制这些伪子类。我们在 Amazon Reviews 和 Sentiment140 等大规模 NLP 基准上的实验评估表明,LELP 在二元和少数类别问题中始终与现有最先进的蒸馏算法竞争,并且通常优于它们,而大多数 KD 方法在这些问题中效果不佳。