LLM2D

摘要

自 2019 年 GPT2-1.5B 诞生以来，大型语言模型 (LLM) 已从专门的模型转变为通用的基础模型。LLM 表现出令人印象深刻的零样本能力，但是，它们需要在本地数据集上进行微调，并且需要大量的资源进行部署。传统的利用一阶优化器进行的微调技术需要大量的 GPU 内存，这超出了主流硬件的能力。因此，人们有动力去研究内存效率高的方法。模型压缩技术可以降低能耗、运营成本和环境影响，从而支持可持续的人工智能发展。此外，大型基础模型已经扩展到创建图像、音频、视频和多模态内容，进一步强调了高效部署的必要性。因此，我们有动力对网络边缘流行的内存高效微调方法进行全面概述。我们还回顾了模型压缩方面的最新文献，以对在网络边缘部署 LLM 的愿景提供展望。