摘要
arXiv:2504.03931v2 宣告类型: replace-cross
摘要:本教程旨在应对对超出通用语言模型静态能力的模型日益增长的需求,通过概述动态、领域特定和任务适应性语言模型适应技术。虽然通用语言模型在多种任务上展示了强大的泛化能力,但在如金融、医疗和低资源语言代码生成等专业化领域中,它们往往难以表现良好。此外,它们的静态性质限制了它们随世界变化而进化的能力,而且它们通常非常庞大,使其在大规模部署时 impractical 和成本高昂。因此,自从语言模型诞生以来,语言模型的适应性吸引了大量关注,并对行业和学术界都具有核心重要性。企业注重为特定用户群提供服务,而学术界可以从小巧但强大的语言模型中获益良多。为解决这一差距,本教程旨在提供语言模型适应技术的概述。我们从数据和模型的角度开始介绍语言模型适应。然后强调与其他技术相比,评估指标和基准的不同之处。在确立了问题之后,我们将探讨各种适应技术。我们将适应技术分为两大类。第一类是参数知识适应,重点关注更新语言模型内的参数知识。我们还将讨论实时适应技术,包括模型编辑,这使得语言模型能够在生产环境中动态更新。第二类是半参数知识适应,其目标是通过检索增强生成(RAG)和基于代理系统等技术更新语言模型参数,以便更好地利用外部知识或工具。