LLM2D

摘要

知识蒸馏（KD）已成为将知识从更大、更复杂的教师模型转移到更小的学生模型的一种很有前景的方法。传统上，KD 涉及训练学生模仿教师的输出概率，而更先进的技术则探索引导学生采用教师的内部表示。尽管 KD 已经取得了广泛的成功，但在二元分类和少数类问题中，KD 的性能并不令人满意。这是因为教师模型泛化模式的信息量直接与类别数量成正比。此外，一些复杂的蒸馏方法可能并不适用于所有数据类型，或者对计算机视觉以外的数据类型无效。因此，对于一系列关键的现实世界应用，例如情感分析、搜索查询理解和广告查询相关性评估，有效的蒸馏技术仍然难以捉摸。考虑到这些观察结果，我们提出了一种从教师模型表示中蒸馏知识的新方法，我们称之为学习嵌入线性投影（LELP）。受关于最终层表示结构的最新发现的启发，LELP 通过识别教师嵌入空间中的信息丰富的线性子空间，并将它们分成伪子类来工作。然后训练学生模型来复制这些伪子类。我们在亚马逊评论和 Sentiment140 等大规模 NLP 基准测试上的实验评估表明，对于大多数 KD 方法都存在问题的二元和少数类问题，LELP 一直与现有的最先进的蒸馏算法具有竞争力，并且通常优于它们。