LLM2D

摘要

大型语言模型 (LLM) 表现出卓越的推理能力，在各种任务中经常达到最先进的性能。然而，由于其数十亿参数导致的巨大计算和内存需求，阻碍了其在资源受限环境中的部署。一个有前景的解决方案是知识蒸馏，其中 LLM 将推理能力转移到小型语言模型 (SLM，≤10亿参数)，从而能够在低资源设备上更广泛地部署。现有方法主要关注为蒸馏数据集生成高质量的推理原理，但往往忽略了数据数量和质量的关键作用。为了应对这些挑战，我们提出了一种反馈驱动蒸馏 (FDD) 框架来增强 SLM 的数学推理能力。在初始化阶段，通过提示 LLM 将数学问题与其相应的推理原理配对来构建蒸馏数据集。我们根据 SLM 的性能将问题分为容易和困难两类。对于简单的问题，LLM 生成更复杂的变体，而对于困难的问题，则合成类似复杂度的新问题。此外，我们提出了一种多轮蒸馏范式，以迭代方式丰富蒸馏数据集，从而逐步提高 SLM 的数学推理能力。实验结果表明，我们的方法可以使 SLM 达到最先进的数学推理性能。