LLM2D

摘要

arXiv:2501.16937v3 宣告类型：替换交叉摘要：因果语言模型展现了非凡的能力，但其规模在资源受限的环境中部署时带来了显著的挑战。知识蒸馏，一种广泛用于将大型教师模型的知识转移到小型学生模型中的技术，为模型压缩提供了有前景的方法。然而，在教师模型和学生模型之间仍存在显著差异，具体的瓶颈包括巨大的容量差距、模式平均和模式崩溃，这些在蒸馏过程中构成了障碍。为了解决这些问题，我们提出了 $\textit{时间自适应插值蒸馏 (TAID)}$，这是一种新颖的知识蒸馏方法，通过自适应中间分布动态地插值学生和教师分布，逐步从学生的初始分布转换到教师的分布。我们提供了一种理论分析，证明了TAID防止模式崩溃的能力，并通过实验证明了其在平衡模式平均和模式崩溃的同时，有效缓解容量差距。我们的全面实验表明，无论是在指令微调还是预训练场景中，TAID都表现出卓越的性能，适用于各种模型规模和架构。此外，我们展示了TAID的实际影响，通过开发了两个前沿的紧凑型基础模型：$\texttt{TAID-LLM-1.5B}$ 用于语言任务和 $\texttt{TAID-VLM-2B}$ 用于视觉语言任务。这些结果表明，TAID能在创建高性能、高效模型方面取得成效，推动了更易获取的AI技术的发展。