LLM2D
从错误中学习以增强推理能力:来自多个大型语言模型的同行评审知识蒸馏
Enhance Reasoning by Learning from Mistakes: Peer-Review Knowledge Distillation from Multiple Large Language Models
作者: Zhuochun Li, Yuelyu Ji, Rui Meng, Daqing He
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.03663v1

摘要

大型语言模型(LLMs)通过生成问题推理来展现出复杂的推理能力,并在自然语言处理(NLP)任务中取得了优异的性能。然而,这些推理能力通常出现在拥有数百亿参数的模型中,给实际部署带来了巨大的计算挑战。最近的研究集中在通过从商业 LLM 中进行知识蒸馏(KD)来改进开源小型模型。然而,这些研究中的大多数仅依赖于单个 LLM 的响应作为训练的金标准推理。本文提出了一种新颖的错误感知同行评审蒸馏(MAPD)方法:1)我们的方法不仅从教师那里获取金标准推理,还要求教师识别和解释学生的错误,从而提供定制的指令学习数据。2)我们设计了教师 LLM 之间的模拟同行评审过程,该过程仅选择通过接受阈值的生成推理。这降低了教师通过有缺陷的推理进行正确猜测的可能性,从而提高了指令数据质量。在数学、常识和逻辑推理任务上的综合实验和分析证明了我们方法的有效性。