LLM2D
教师嵌入的线性投影用于少样本蒸馏
Linear Projections of Teacher Embeddings for Few-Class Distillation
作者: Noel Loo, Fotis Iliopoulos, Wei Hu, Erik Vee
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2409.20449v1

摘要

知识蒸馏(KD)已成为将知识从更大、更复杂的教师模型转移到更小的学生模型的一种很有前景的方法。传统上,KD 涉及训练学生模仿教师的输出概率,而更先进的技术则探索引导学生采用教师的内部表示。尽管 KD 已经取得了广泛的成功,但在二元分类和少数类问题中,KD 的性能并不令人满意。这是因为教师模型泛化模式的信息量直接与类别数量成正比。此外,一些复杂的蒸馏方法可能并不适用于所有数据类型,或者对计算机视觉以外的数据类型无效。因此,对于一系列关键的现实世界应用,例如情感分析、搜索查询理解和广告查询相关性评估,有效的蒸馏技术仍然难以捉摸。考虑到这些观察结果,我们提出了一种从教师模型表示中蒸馏知识的新方法,我们称之为学习嵌入线性投影(LELP)。受关于最终层表示结构的最新发现的启发,LELP 通过识别教师嵌入空间中的信息丰富的线性子空间,并将它们分成伪子类来工作。然后训练学生模型来复制这些伪子类。我们在亚马逊评论和 Sentiment140 等大规模 NLP 基准测试上的实验评估表明,对于大多数 KD 方法都存在问题的二元和少数类问题,LELP 一直与现有的最先进的蒸馏算法具有竞争力,并且通常优于它们。