LLM2D

摘要

arXiv:2505.02309v1 Announce Type: cross 摘要：大型语言模型（LLMs）已彻底改变了人工智能（AI）的许多领域，但它们庞大的资源需求限制了其在移动和边缘设备上的部署。本文综述了压缩LLMs的技术，使其能够在资源受限的环境中高效推理。我们探讨了三种主要方法：知识蒸馏、模型量化和模型剪枝。对于每种技术，我们讨论了其基本原理，介绍了不同的变体，并提供了成功的应用示例。我们还简要讨论了混合专家和早期退出策略等互补技术。最后，我们强调了一些有前景的未来方向，旨在为希望优化LLMs在边缘部署的研究人员和实践者提供有价值的资源。