LLM2D
简单知识蒸馏设置中平衡参数动态控制的重要性分析
Importance Analysis for Dynamic Control of Balancing Parameter in a Simple Knowledge Distillation Setting
作者: Seongmin Kim, Kwanho Kim, Minseung Kim, Kanghyun Jo
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.06270v1

摘要

arXiv:2505.06270v1 类型: cross 摘要:尽管深度学习模型因其深层次和复杂的架构而取得了非凡的成功,但这种复杂性通常会牺牲实时性能。为了解决这个问题,提出了多种模型压缩技术,其中知识蒸馏(KD)因其强大的经验表现而脱颖而出。KD 包含两个并发过程:(i) 匹配一个大型预训练教师网络和一个轻量级学生网络的输出,和(ii) 训练学生解决其指定的下游任务。相应的损失函数分别称为蒸馏损失和下游任务损失。大量前期研究表明,当蒸馏损失的影响超过下游任务损失时,KD 最为有效。影响(或重要性)通常通过一个平衡参数来调节。本文提供了一个数学依据,说明在简单KD设置中,当损失在减少时,平衡参数应该动态调整。