LLM2D

摘要

arXiv:2406.13555v3 宣布类型：替换交叉摘要：近年来，大规模语言模型（LLMs）在各种自然语言处理（NLP）任务中展现了卓越的能力。然而，这种令人印象深刻的性能往往伴随着参数量的增加，这给广泛应用带来了巨大的挑战。知识蒸馏（KD）提供了一种解决方案，通过将大型教师模型的知识转移到较小的学生模型上。在本文中，我们探索了LLMs在logit级别上针对特定任务的知识蒸馏。我们的研究表明，微调后的LLM的logits表现出比视觉模型更极端的长尾分布，并且长尾中的隐藏“噪声”会影响蒸馏性能。此外，现有的logits蒸馏方法往往难以有效利用logits内部的排序信息。为了解决这些问题，我们提出了双向logits差异（BiLD）损失。BiLD损失通过仅使用top-$k$教师和学生的logits过滤掉长尾噪声，并通过构建logits差异来利用内部排序信息。为了评估BiLD损失，我们在13个数据集上使用了两种类型的LLMs进行了全面实验。结果显示，仅使用top-8 logit的BiLD损失在蒸馏方法中表现出色，优于监督微调（SFT）、朴素的KL损失以及来自NLP和CV领域的其他五种蒸馏方法。