摘要
大型语言模型 (LLM) 表现出卓越的推理能力,在各种任务中经常达到最先进的性能。然而,由于其数十亿参数导致的巨大计算和内存需求,阻碍了其在资源受限环境中的部署。一个有前景的解决方案是知识蒸馏,其中 LLM 将推理能力转移到小型语言模型 (SLM,≤10亿参数),从而能够在低资源设备上更广泛地部署。现有方法主要关注为蒸馏数据集生成高质量的推理原理,但往往忽略了数据数量和质量的关键作用。为了应对这些挑战,我们提出了一种反馈驱动蒸馏 (FDD) 框架来增强 SLM 的数学推理能力。在初始化阶段,通过提示 LLM 将数学问题与其相应的推理原理配对来构建蒸馏数据集。我们根据 SLM 的性能将问题分为容易和困难两类。对于简单的问题,LLM 生成更复杂的变体,而对于困难的问题,则合成类似复杂度的新问题。此外,我们提出了一种多轮蒸馏范式,以迭代方式丰富蒸馏数据集,从而逐步提高 SLM 的数学推理能力。实验结果表明,我们的方法可以使 SLM 达到最先进的数学推理性能。