摘要
arXiv:2505.02309v2 宣告类型: replace-cross
摘要:大型语言模型(LLMs)在人工智能(AI)的许多领域引发了革命,但其巨大的资源要求限制了它们在移动和边缘设备上的部署。本文综述提供了压缩LLMs以在资源受限环境中实现高效推理的技术的全面概述。我们探讨了三种主要方法:知识蒸馏、模型量化和模型剪枝。对于每种技术,我们讨论了其基本原理,展示了不同的变体,并提供了成功的应用实例。我们还简要讨论了诸如专家混合和早期退出策略等补充技术。最后,我们强调了有希望的未来方向,旨在为寻求优化LLMs在边缘部署的研究人员和实践者提供有价值的资源。