LLM2D

摘要

arXiv:2504.20482v1 交叉公告类型摘要：知识蒸馏通常通过最小化教师模型和学生模型输出分布之间的差异，将知识从教师模型转移到学生模型。然而，现有的蒸馏方法大多专注于模仿绝对概率，而忽视了嵌入在教师相对预测中的宝贵关系性归纳偏差，导致暴露偏差。在本文中，我们提出了组相对知识蒸馏（GRKD），这是一种新颖的框架，通过学习类别的相对排行榜来蒸馏教师知识，而不是直接拟合绝对分布。具体来说，我们引入了一种组相对损失，该损失鼓励学生模型保留由教师输出提供的两两偏好顺序。在对分类基准的广泛实验中，GRKD 在要求精细类别区别的任务中表现出优于现有方法的泛化能力。我们的方法为利用教师知识提供了一个新的视角，侧重于关系结构而非绝对似然性。