LLM2D

摘要

大型语言模型（LLMs）通过生成问题推理来展现出复杂的推理能力，并在自然语言处理（NLP）任务中取得了优异的性能。然而，这些推理能力通常出现在拥有数百亿参数的模型中，给实际部署带来了巨大的计算挑战。最近的研究集中在通过从商业 LLM 中进行知识蒸馏（KD）来改进开源小型模型。然而，这些研究中的大多数仅依赖于单个 LLM 的响应作为训练的金标准推理。本文提出了一种新颖的错误感知同行评审蒸馏（MAPD）方法：1）我们的方法不仅从教师那里获取金标准推理，还要求教师识别和解释学生的错误，从而提供定制的指令学习数据。2）我们设计了教师 LLM 之间的模拟同行评审过程，该过程仅选择通过接受阈值的生成推理。这降低了教师通过有缺陷的推理进行正确猜测的可能性，从而提高了指令数据质量。在数学、常识和逻辑推理任务上的综合实验和分析证明了我们方法的有效性。