LLM2D
来自混合教师的推理蒸馏:基于同行评审的教育方法
Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review
作者: Zhuochun Li, Yuelyu Ji, Rui Meng, Daqing He
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2410.03663v3

摘要

arXiv:2410.03663v3 宣告类型: 更换交叉引用 摘要:虽然推理能力通常在具有数十亿参数的大型语言模型(LLMs)中涌现,但最近的研究更关注通过从商用LLMs的知识蒸馏(KD)来提高较小的开源模型的表现。然而,这些研究中的许多依赖于单一LLM的响应作为黄金理由,这与自然的人类学习过程不同,后者涉及理解正确答案以及错误背后的原因。在本文中,我们介绍了一种新的故障感知蒸馏通过同伴评审的方法(FAIR):1)我们的方法不仅从教师那里获取理由,还会让教师识别并解释学生的错误,提供定制化的教学数据。2)我们设计了一种模拟的教师LLM之间的同伴评审过程,该过程只选择高于接受阈值的生成理由。这减少了教师通过有缺陷的理由猜中的可能性,从而提高教学数据的质量。在数学、常识和逻辑推理任务上的全面实验和分析证明了我们方法的有效性。