LLM2D

摘要

arXiv:2504.11426v1 类型: cross 摘要：知识蒸馏（KD）是一种通过将大型语言模型（LLMs）的知识转移到较小的模型中来压缩大型语言模型的有前途的解决方案。在这个过程中，白盒KD方法通常通过最小化老师模型和学生模型输出分布之间的距离来转移更多信息。然而，我们揭示了当前的白盒KD框架存在两个局限性：a) 从不同输出空间桥接概率分布将限制老师模型和学生模型之间的相似性；b) 该框架不能应用于词汇表不同的LLMs。这些局限性的根本原因是用于KD的老师和学生模型的输出是由不同的预测头生成的，这导致了不同的输出空间和维度。因此，在本文中，我们提出了一种双空间知识蒸馏（DSKD）框架，该框架统一了老师和学生模型的预测头。具体地，我们首先引入了两个带有理想初始化的投影器，将老师的/学生的隐藏状态投影到学生的/老师的表示空间中。然后，来自不同模型的隐藏状态可以共享相同的头，并统一分布的输出空间。此外，我们开发了一种精确令牌对齐（ETA）算法，用于在两个不同标记化的序列中对齐相同的令牌。基于上述内容，我们的DSKD框架是一种通用的KD框架，既支持脱策和在线KD，也支持任何两个LLM之间的KD，无论它们的词汇表如何。在指令跟随、数学推理和代码生成基准测试中的广泛实验表明，DSKD在当前白盒KD框架基础上显著优于现有方法，并且在具有不同词汇表的LLM之间超过了其他跨标记器KD方法。