LLM2D
大型语言模型的适应性
Adaptation of Large Language Models
作者: Zixuan Ke, Yifei Ming, Shafiq Joty
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.03931v1

摘要

arXiv:2504.03931v1 适应类型:交叉 摘要:本文献教程旨在解决对超越通用大型语言模型(LLM)静态能力的需求,通过概述动态、领域特定和任务自适应LLM适应技术的概览。虽然通用LLM在多种任务上展示了强大的泛化能力,但在金融、医疗保健以及为少语种代码生成等领域中的专业领域,它们常常难以表现良好。此外,它们的静态性质限制了它们适应变化的能力,并且通常体积庞大,这使得在大规模部署时既不实际也不昂贵。因此,随着大型语言模型的诞生,LLM的适应性已经引起了极大的关注,并且对于行业和学术界都至关重要。行业主要集中于满足其目标用户,而学术界可以从小巧但强大的LLM中获益良多。为了解决这一缺口,本文献旨在提供LLM适应技术的概览。我们从数据和模型的角度介绍了LLM适应性的基础。然后强调适应技术的评估指标和基准与其他技术的不同之处。在建立问题之后,我们探讨了各种适应技术。我们将适应技术分为两类主要家族。第一类是参数化知识适应,专注于更新LLM内的参数化知识。此外,我们还将讨论实时适应技术,包括模型编辑,这使得LLM能够在生产环境中动态更新。第二类是半参数化知识适应,其目标是通过检索增强生成(RAG)和基于代理的系统等技术更新LLM参数,以更好地利用外部知识或工具。