LLM2D
教育蒸馏:让学生模型在学校里学习
Education distillation:getting student models to learn in shcools
作者: Ling Feng, Tianhao Wu, Xiangrong Ren, Zhi Jing, Xuliang Duan
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2311.13811v3

摘要

arXiv:2311.13811v3 公告类型: 替换 摘要: 本文介绍了一种新的知识蒸馏方法,称为教育蒸馏(ED),这是受到人类学习的结构化和渐进性启发而提出的。ED 模拟了从小学到中学再到大学的教育阶段,并设计了教学参考模块。学生模型被拆分为主体和多个教学参考模块,逐步从教师那里学习。这种方法在保持学生模型结构的同时,促进高效的知识蒸馏。在CIFAR100、Tiny Imagenet、Caltech和Food-101数据集上的实验结果显示,教学参考模块能够有效避免遗忘问题。与传统的单教师和多教师知识蒸馏方法相比,ED 显著提高了学生模型的准确性和泛化能力。这些发现突出了ED在不同架构和数据集上提高模型性能的潜力,表明其在各种深度学习场景中的价值。有关代码示例可以访问:https://github.com/Revolutioner1/ED.git。