摘要
arXiv:2406.13555v3 宣布类型:替换交叉
摘要:近年来,大规模语言模型(LLMs)在各种自然语言处理(NLP)任务中展现了卓越的能力。然而,这种令人印象深刻的性能往往伴随着参数量的增加,这给广泛应用带来了巨大的挑战。知识蒸馏(KD)提供了一种解决方案,通过将大型教师模型的知识转移到较小的学生模型上。在本文中,我们探索了LLMs在logit级别上针对特定任务的知识蒸馏。我们的研究表明,微调后的LLM的logits表现出比视觉模型更极端的长尾分布,并且长尾中的隐藏“噪声”会影响蒸馏性能。此外,现有的logits蒸馏方法往往难以有效利用logits内部的排序信息。为了解决这些问题,我们提出了双向logits差异(BiLD)损失。BiLD损失通过仅使用top-$k$教师和学生的logits过滤掉长尾噪声,并通过构建logits差异来利用内部排序信息。为了评估BiLD损失,我们在13个数据集上使用了两种类型的LLMs进行了全面实验。结果显示,仅使用top-8 logit的BiLD损失在蒸馏方法中表现出色,优于监督微调(SFT)、朴素的KL损失以及来自NLP和CV领域的其他五种蒸馏方法。