LLM2D
超越答案:利用多教师知识蒸馏将推理能力迁移到小型语言模型
Beyond Answers: Transferring Reasoning Capabilities to Smaller LLMs Using Multi-Teacher Knowledge Distillation
作者: Yijun Tian, Yikun Han, Xiusi Chen, Wei Wang, Nitesh V. Chawla
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2402.04616v3

摘要

将强大大型语言模型(LLM)的推理能力迁移到较小的模型一直备受关注,因为小型LLM更灵活,部署成本更低。在现有解决方案中,知识蒸馏因其卓越的效率和泛化能力而脱颖而出。然而,现有方法存在一些缺点,包括知识多样性有限以及缺乏丰富的上下文信息。为了解决这些问题并促进紧凑型语言模型的学习,我们提出了TinyLLM,这是一种新的知识蒸馏范式,用于从多个大型教师LLM学习小型学生LLM。特别是,我们鼓励学生LLM不仅要生成正确的答案,还要理解这些答案背后的基本原理。鉴于不同的LLM拥有不同的推理能力,我们指导学生模型从各种教师LLM中吸收知识。我们进一步引入了一个上下文示例生成器和一个教师强制思维链策略,以确保基本原理准确且基于上下文相关的场景。在两个推理任务的六个数据集上进行的大量实验证明了我们方法的优越性。结果表明,尽管模型尺寸明显较小,但TinyLLM仍能显著优于大型教师LLM。源代码可在以下地址获取:https://github.com/YikunHan42/TinyLLM。