摘要
arXiv:2505.06270v1 类型: cross
摘要:尽管深度学习模型因其深层次和复杂的架构而取得了非凡的成功,但这种复杂性通常会牺牲实时性能。为了解决这个问题,提出了多种模型压缩技术,其中知识蒸馏(KD)因其强大的经验表现而脱颖而出。KD 包含两个并发过程:(i) 匹配一个大型预训练教师网络和一个轻量级学生网络的输出,和(ii) 训练学生解决其指定的下游任务。相应的损失函数分别称为蒸馏损失和下游任务损失。大量前期研究表明,当蒸馏损失的影响超过下游任务损失时,KD 最为有效。影响(或重要性)通常通过一个平衡参数来调节。本文提供了一个数学依据,说明在简单KD设置中,当损失在减少时,平衡参数应该动态调整。