LLM2D

摘要

知识蒸馏（KD）被认为是压缩大型语言模型（LLM）的一种很有前景的解决方案，它通过将大型模型的知识转移到更小的模型中来实现。在这个过程中，白盒 KD 方法通常最小化两个模型的输出分布之间的距离，以便可以转移更多知识。然而，在当前的白盒 KD 框架中，输出分布来自两个模型各自的输出空间，使用它们自己的预测头。我们认为，空间差异会导致教师模型和学生模型在表示和分布层面上都存在低相似性。此外，这种差异还会阻碍不同词汇模型之间的 KD 过程，这在当前的 LLM 中很常见。为了解决这些问题，我们提出了一个双空间知识蒸馏（DSKD）框架，该框架统一了两个模型的输出空间以进行 KD。在 DSKD 的基础上，我们进一步开发了一种跨模型注意力机制，该机制可以自动对齐具有不同词汇的两个模型的表示。因此，我们的框架不仅与 KD 的各种距离函数（例如 KL 散度）兼容，就像当前框架一样，而且还支持任何两个 LLM 之间的 KD，无论它们的词汇如何。在与任务无关的指令遵循基准上的实验表明，DSKD 在各种距离函数上显著优于当前的白盒 KD 框架，并且也优于具有不同词汇的 LLM 的现有 KD 方法。