摘要
自 2019 年 GPT2-1.5B 诞生以来,大型语言模型 (LLM) 已从专门的模型转变为通用的基础模型。LLM 表现出令人印象深刻的零样本能力,但是,它们需要在本地数据集上进行微调,并且需要大量的资源进行部署。传统的利用一阶优化器进行的微调技术需要大量的 GPU 内存,这超出了主流硬件的能力。因此,人们有动力去研究内存效率高的方法。模型压缩技术可以降低能耗、运营成本和环境影响,从而支持可持续的人工智能发展。此外,大型基础模型已经扩展到创建图像、音频、视频和多模态内容,进一步强调了高效部署的必要性。因此,我们有动力对网络边缘流行的内存高效微调方法进行全面概述。我们还回顾了模型压缩方面的最新文献,以对在网络边缘部署 LLM 的愿景提供展望。