LLM2D

摘要

arXiv:2409.12500v1 公告类型: 交叉摘要: 大型语言模型在各种自然语言处理(NLP)任务中变得越来越流行，并展示了显著的性能。然而，这些模型通常计算成本高昂，难以在资源受限的环境中部署。在本文中，我们提出了LLMR，一种基于大型语言模型诱导的奖励函数的新型知识蒸馏(KD)方法。我们在对话生成和摘要任务的多个数据集上进行了实验。实证结果表明，我们的LLMR方法在不同任务和数据集上始终优于传统的KD方法。