LLM2D
面向资源受限边缘设备的 LLM 部署经验指南
Empirical Guidelines for Deploying LLMs onto Resource-constrained Edge Devices
作者: Ruiyang Qin, Dancheng Liu, Chenhui Xu, Zheyu Yan, Zhaoxuan Tan, Zhenge Jia, Amir Nassereldine, Jiajie Li, Meng Jiang, Ahmed Abbasi, Jinjun Xiong, Yiyu Shi
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2406.03777v3

摘要

大规模语言模型 (LLM) 的扩展定律已经成为设计 LLM 的事实标准,但这些定律是在训练和推理都拥有无限计算资源的假设下研究的。随着 LLM 越来越多地被用作个性化的智能助手,它们的定制(即通过微调学习)和部署到资源受限的边缘设备将变得越来越普遍。一个迫切但尚未解决的问题是,资源受限的计算环境将如何影响个性化 LLM 的设计选择。我们在本研究中对这个问题进行了实证研究。特别是,我们考虑了几个关键设计因素之间的权衡以及它们对学习效率和准确性的相互影响。这些因素包括 LLM 定制的学习方法、用于学习定制的个性化数据量、LLM 的类型和大小、LLM 的压缩方法、学习所需的时间以及目标用例的难度级别。通过大量的实验和基准测试,我们得出了一系列令人惊讶的洞察性准则,用于将 LLM 部署到资源受限的设备上。例如,参数学习和 RAG 之间的最佳选择可能取决于下游任务的难度,较长的微调时间并不一定有助于模型,而压缩后的 LLM 可能是从有限的个性化数据中学习的更好选择,而不是未压缩的 LLM。