LLM2D

摘要

arXiv:2410.10870v3 宣告类型: replace-cross 摘要：随着大型语言模型（LLMs）越来越多地塑造AI格局，为了在特定领域任务中实现最佳性能，微调预训练模型比LLM时代前夕更为流行。然而，预训练LLM，如ChatGPT，会定期演变，即模型参数会频繁更新，这使得下游有限资源用户难以跟上最新LLM的微调以适应其领域应用。尽管参数高效微调（如LoRA）的创新已大幅降低了微调成本，但并非所有下游用户都有足够的计算资源进行频繁个性化。此外，在敏感领域，如医疗保健，访问微调数据集可能是时间限制性的，这使得保留早期微调轮次中编码的知识对未来适应至关重要。本文中，我们提出了PortLLM，这是一个无需训练的框架，（i）创建一个初始的轻量级模型更新补丁以捕捉领域特定知识，（ii）并允许后续无缝插件，以以最低成本对演变中的LLM进行持续个性化。我们的广泛实验涵盖了七个代表性数据集，从较简单的问答任务{BoolQ, SST2}到较难的推理任务{WinoGrande, GSM8K}，以及包括{Mistral-7B, Llama2, Llama3.1, 和 Gemma2}的模型，验证了我们设计的模型更新补丁的可移植性，并展示了我们提议框架的有效性。例如，PortLLM 在 GPU 内存使用上的减少幅度高达 12.2 倍，达到了与LoRA微调相当的性能。最后，我们提供了理论依据以理解我们模型更新补丁的可移植性，这为LLMs个性化理论维度提供了新的见解。