LLM2D

摘要

arXiv:2503.19123v1 类型: cross 摘要：使用大型教师模型来引导较小学生模型的训练已成为高效和有效的学习主流范式。然而，教师和学生语言模型之间的词汇不匹配在语言建模中提出了重大挑战，导致不同的token序列和输出分布。为了克服这些限制，我们提出了词汇无关型教师引导语言建模（VocAgnoLM），这是一个通过两个关键方法弥补词汇不匹配差距的新方法：（1）token层面的词汇对齐，该方法在不同词汇集上对齐token序列，和（2）教师引导损失，该方法利用教师模型的损失来指导学生训练的有效性。我们通过使用各种不同词汇集的7B教师模型和1B学生模型展示了其在语言建模中的有效性。值得注意的是，使用仅与TinyLlama共享约6%词汇的Qwen2.5-Math-Instruct作为教师模型，VocAgnoLM相比直接持续预训练在性能上提高了46%。此外，我们展示了VocAgnoLM从更强的教师模型中受益，提供了一种针对语言建模中词汇不匹配的稳健解决方案。