LLM2D

摘要

arXiv:2410.03663v3 宣告类型: 更换交叉引用摘要：虽然推理能力通常在具有数十亿参数的大型语言模型（LLMs）中涌现，但最近的研究更关注通过从商用LLMs的知识蒸馏（KD）来提高较小的开源模型的表现。然而，这些研究中的许多依赖于单一LLM的响应作为黄金理由，这与自然的人类学习过程不同，后者涉及理解正确答案以及错误背后的原因。在本文中，我们介绍了一种新的故障感知蒸馏通过同伴评审的方法（FAIR）：1）我们的方法不仅从教师那里获取理由，还会让教师识别并解释学生的错误，提供定制化的教学数据。2）我们设计了一种模拟的教师LLM之间的同伴评审过程，该过程只选择高于接受阈值的生成理由。这减少了教师通过有缺陷的理由猜中的可能性，从而提高教学数据的质量。在数学、常识和逻辑推理任务上的全面实验和分析证明了我们方法的有效性。