LLM2D
DSG-KD:从领域特定到通用语言模型的知识蒸馏
DSG-KD: Knowledge Distillation from Domain-Specific to General Language Models
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14904v1

摘要

预训练语言模型经过微调以解决特定下游任务是自然语言处理(NLP)中的常见方法。然而,通过微调获取领域特定知识具有挑战性。传统方法涉及在特定任务微调之前,使用大量领域特定数据预训练语言模型。本研究基于从韩国儿科急诊部门(PEDs)获取的电子病历(EMR)数据,探讨紧急/非紧急分类任务。我们的研究发现,现有的领域特定预训练语言模型在处理非英语地区多语言自由文本数据特征时,表现不如通用语言模型。为解决这些局限性,我们提出了一种领域知识转移方法,利用知识蒸馏通过微调将领域特定知识注入通用语言模型。本研究通过将通用语言模型定义为学生模型,领域特定预训练模型定义为教师模型,展示了模型间专业知识的有效转移。特别是,我们解决了从非英语地区(如韩国)的PEDs获取的EMR数据的复杂性,并证明所提出的方法在这些情境下提高了分类性能。所提出的方法不仅在韩国PED EMR数据上优于基线模型,还具有在各种专业和技术领域的广泛适用性。未来工作中,我们计划将此方法扩展至包括多个非英语地区,并解决更多下游任务,旨在利用最先进的知识蒸馏技术开发高级模型架构。代码可在https://github.com/JoSangYeon/DSG-KD获取。