LLM2D

摘要

知识蒸馏（KD）已成为将知识从更大、更复杂的教师模型转移到更小的学生模型的一种很有前景的方法。传统上，KD 涉及训练学生模仿教师的输出概率，而更先进的技术则探索指导学生采用教师的内部表示。尽管 KD 取得了广泛的成功，但它在二元分类和少数类别问题中的性能并不令人满意。这是因为教师模型泛化模式的信息量直接与类别数量成正比。此外，一些复杂的蒸馏方法可能不适用于所有类型的数据，或者对于计算机视觉以外的数据类型效果不佳。因此，对于一系列关键的现实世界应用，如情感分析、搜索查询理解和广告查询相关性评估，有效的蒸馏技术仍然难以捉摸。考虑到这些观察结果，我们提出了一种从教师模型表示中蒸馏知识的新方法，我们将其称为学习嵌入线性投影（LELP）。受关于最终层表示结构的最新发现的启发，LELP 通过识别教师嵌入空间中的信息性线性子空间，并将它们分成伪子类来工作。然后训练学生模型来复制这些伪子类。我们在 Amazon Reviews 和 Sentiment140 等大规模 NLP 基准上的实验评估表明，LELP 在二元和少数类别问题中始终与现有最先进的蒸馏算法竞争，并且通常优于它们，而大多数 KD 方法在这些问题中效果不佳。