LLM2D
基于时间自适应插值蒸馏的语言模型高效知识迁移方法
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models
作者: Makoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2501.16937v3

摘要

arXiv:2501.16937v3 宣告类型:替换交叉 摘要:因果语言模型展现了非凡的能力,但其规模在资源受限的环境中部署时带来了显著的挑战。知识蒸馏,一种广泛用于将大型教师模型的知识转移到小型学生模型中的技术,为模型压缩提供了有前景的方法。然而,在教师模型和学生模型之间仍存在显著差异,具体的瓶颈包括巨大的容量差距、模式平均和模式崩溃,这些在蒸馏过程中构成了障碍。为了解决这些问题,我们提出了 $\textit{时间自适应插值蒸馏 (TAID)}$,这是一种新颖的知识蒸馏方法,通过自适应中间分布动态地插值学生和教师分布,逐步从学生的初始分布转换到教师的分布。我们提供了一种理论分析,证明了TAID防止模式崩溃的能力,并通过实验证明了其在平衡模式平均和模式崩溃的同时,有效缓解容量差距。我们的全面实验表明,无论是在指令微调还是预训练场景中,TAID都表现出卓越的性能,适用于各种模型规模和架构。此外,我们展示了TAID的实际影响,通过开发了两个前沿的紧凑型基础模型:$\texttt{TAID-LLM-1.5B}$ 用于语言任务和 $\texttt{TAID-VLM-2B}$ 用于视觉语言任务。这些结果表明,TAID能在创建高性能、高效模型方面取得成效,推动了更易获取的AI技术的发展。