LLM2D
组相关知识蒸馏:学习教师的关系归纳偏见
Group Relative Knowledge Distillation: Learning from Teacher's Relational Inductive Bias
作者: Chao Li, Changhua Zhou, Jia Chen
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20482v1

摘要

arXiv:2504.20482v1 交叉公告类型 摘要:知识蒸馏通常通过最小化教师模型和学生模型输出分布之间的差异,将知识从教师模型转移到学生模型。然而,现有的蒸馏方法大多专注于模仿绝对概率,而忽视了嵌入在教师相对预测中的宝贵关系性归纳偏差,导致暴露偏差。在本文中,我们提出了组相对知识蒸馏(GRKD),这是一种新颖的框架,通过学习类别的相对排行榜来蒸馏教师知识,而不是直接拟合绝对分布。具体来说,我们引入了一种组相对损失,该损失鼓励学生模型保留由教师输出提供的两两偏好顺序。在对分类基准的广泛实验中,GRKD 在要求精细类别区别的任务中表现出优于现有方法的泛化能力。我们的方法为利用教师知识提供了一个新的视角,侧重于关系结构而非绝对似然性。