LLM2D
优化有限资源环境下的LLMs:模型压缩技术综述
Optimizing LLMs for Resource-Constrained Environments: A Survey of Model Compression Techniques
作者: Sanjay Surendranath Girija, Shashank Kapoor, Lakshit Arora, Dipen Pradhan, Aman Raj, Ankit Shetgaonkar
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.02309v1

摘要

arXiv:2505.02309v1 Announce Type: cross 摘要:大型语言模型(LLMs)已彻底改变了人工智能(AI)的许多领域,但它们庞大的资源需求限制了其在移动和边缘设备上的部署。本文综述了压缩LLMs的技术,使其能够在资源受限的环境中高效推理。我们探讨了三种主要方法:知识蒸馏、模型量化和模型剪枝。对于每种技术,我们讨论了其基本原理,介绍了不同的变体,并提供了成功的应用示例。我们还简要讨论了混合专家和早期退出策略等互补技术。最后,我们强调了一些有前景的未来方向,旨在为希望优化LLMs在边缘部署的研究人员和实践者提供有价值的资源。