LLM2D
Home
Arxiv
返回列表
LLMR:基于大型语言模型诱导奖励的知识蒸馏
LLMR: Knowledge Distillation with a Large Language Model-Induced Reward
发布日期:
9/20/2024
arXiv ID:
oai:arXiv.org:2409.12500v1
摘要
arXiv:2409.12500v1 公告类型: 交叉 摘要: 大型语言模型在各种自然语言处理(NLP)任务中变得越来越流行,并展示了显著的性能。然而,这些模型通常计算成本高昂,难以在资源受限的环境中部署。在本文中,我们提出了LLMR,一种基于大型语言模型诱导的奖励函数的新型知识蒸馏(KD)方法。我们在对话生成和摘要任务的多个数据集上进行了实验。实证结果表明,我们的LLMR方法在不同任务和数据集上始终优于传统的KD方法。
查看原文
下载 PDF