LLM2D

摘要

arXiv:2505.02309v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）在人工智能（AI）的许多领域引发了革命，但其巨大的资源要求限制了它们在移动和边缘设备上的部署。本文综述提供了压缩LLMs以在资源受限环境中实现高效推理的技术的全面概述。我们探讨了三种主要方法：知识蒸馏、模型量化和模型剪枝。对于每种技术，我们讨论了其基本原理，展示了不同的变体，并提供了成功的应用实例。我们还简要讨论了诸如专家混合和早期退出策略等补充技术。最后，我们强调了有希望的未来方向，旨在为寻求优化LLMs在边缘部署的研究人员和实践者提供有价值的资源。