LLM2D
Home
Arxiv
返回列表
在知识蒸馏中重新审视中间层匹配:层选择策略并不会太多影响
Revisiting Intermediate-Layer Matching in Knowledge Distillation: Layer-Selection Strategy Doesn't Matter (Much)
作者:
Zony Yu, Yuqiao Wen, Lili Mou
发布日期:
2/10/2025
arXiv ID:
oai:arXiv.org:2502.04499v1
摘要
arXiv:2502.04499v1 交叉类型 摘要:知识蒸馏(KD)是一种将大型“教师”模型的知识转移到小型“学生”模型中的流行方法。KD可以分为两类:预测匹配和中间层匹配。我们探讨了一个有趣的现象:在中间层匹配中,层选择策略并不重要(相差不大)。在本文中,我们表明,诸如反向匹配教师的层这样的似乎毫无意义的匹配策略,实际上也能够取得令人惊讶的好学生性能。我们通过从学生视角 observation 观察教师层之间的角度,为这一现象提供了一个解释。
查看原文
下载 PDF