LLM2D

摘要

大型语言模型 (LLM) 通过利用思维链 (CoT) 提示在各种复杂任务中展现出非凡的性能。最近，一些研究提出了知识蒸馏 (KD) 方法，即推理蒸馏，通过微调由 LLM 教师生成的多个步骤的推理来转移 LLM 的这种推理能力。然而，他们没有充分考虑 LLM 教师模型中推理蒸馏集不足的两个挑战，即 1) 数据质量和 2) 软标签提供。在本文中，我们提出了 Mentor-KD，它有效地将 LLM 的多步骤推理能力蒸馏到更小的 LM 中，同时解决了上述挑战。具体来说，我们利用一个导师，即一个中间规模的特定任务微调模型，来增强额外的 CoT 注释，并在推理蒸馏期间为学生模型提供软标签。我们进行了大量的实验，并证实了 Mentor-KD 在各种模型和复杂推理任务中的有效性。