LLM2D
婴儿互教:学生知识共享能否在小型数据集上胜过教师引导的知识蒸馏?
When Babies Teach Babies: Can student knowledge sharing outperform Teacher-Guided Distillation on small datasets?
作者: Srikrishna Iyer
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.16487v1

摘要

我们提交了 BabyLM 挑战赛的方案,旨在突破数据高效型语言模型预训练的界限。我们的方法基于深度互学习,引入了学生模型的多样化初始化搜索。我们通过将加权互学习表述为双层优化问题来解决平等对待学生模型的局限性。内循环通过在线蒸馏学习紧凑型学生模型,而外循环则优化权重以更好地从多样化的学生模型中进行知识蒸馏。这种动态加权策略消除了对教师模型的需求,降低了计算需求。我们的评估结果表明,无教师方法可以匹配甚至超越教师监督方法。