LLM2D
导师式知识蒸馏:打造更强大的多步推理小型语言模型
Mentor-KD: Making Small Language Models Better Multi-step Reasoners
作者: Hojae Lee, Junho Kim, SangKeun Lee
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2410.09037v1

摘要

大型语言模型 (LLM) 通过利用思维链 (CoT) 提示在各种复杂任务中展现出非凡的性能。最近,一些研究提出了知识蒸馏 (KD) 方法,即推理蒸馏,通过微调由 LLM 教师生成的多个步骤的推理来转移 LLM 的这种推理能力。然而,他们没有充分考虑 LLM 教师模型中推理蒸馏集不足的两个挑战,即 1) 数据质量和 2) 软标签提供。在本文中,我们提出了 Mentor-KD,它有效地将 LLM 的多步骤推理能力蒸馏到更小的 LM 中,同时解决了上述挑战。具体来说,我们利用一个导师,即一个中间规模的特定任务微调模型,来增强额外的 CoT 注释,并在推理蒸馏期间为学生模型提供软标签。我们进行了大量的实验,并证实了 Mentor-KD 在各种模型和复杂推理任务中的有效性。