LLM2D

摘要

arXiv:2505.06270v1 类型: cross 摘要：尽管深度学习模型因其深层次和复杂的架构而取得了非凡的成功，但这种复杂性通常会牺牲实时性能。为了解决这个问题，提出了多种模型压缩技术，其中知识蒸馏（KD）因其强大的经验表现而脱颖而出。KD 包含两个并发过程：(i) 匹配一个大型预训练教师网络和一个轻量级学生网络的输出，和(ii) 训练学生解决其指定的下游任务。相应的损失函数分别称为蒸馏损失和下游任务损失。大量前期研究表明，当蒸馏损失的影响超过下游任务损失时，KD 最为有效。影响（或重要性）通常通过一个平衡参数来调节。本文提供了一个数学依据，说明在简单KD设置中，当损失在减少时，平衡参数应该动态调整。