摘要
arXiv:2410.11325v3 宣告类型: replace-cross
摘要:近期的知识蒸馏(KD)进展使较小的学生模型能够接近较大教师模型的性能。然而,诸如监督KD和策略一致KD等流行方法在实际场景中受到教师-学生之间知识差距的不利影响。监督KD在使用静态数据集进行训练与对最终学生生成输出进行推理之间存在分布不匹配。相反,策略一致KD使用学生生成的样本进行训练,可能会导致教师不熟悉的低质量训练样本,从而导致不准确的教师反馈。为了解决这些限制,我们提出了推测式知识蒸馏(Speculative Knowledge Distillation, SKD),这是一种新的方法,通过学生和教师模型之间的合作,在学生推理时间分布的指导下实时生成高质量的训练数据,同时进行对齐。在SKD中,学生提出令牌,而教师根据自己的分布替换排名较低的令牌,从而以适应性的方式转移高质量的知识。我们对各种文本生成任务进行了评估,包括翻译、摘要、数学和指令跟随,并显示出SKD在不同领域、不同数据集大小和不同模型初始化策略下始终优于现有KD方法。