LLM2D
资源高效的语言模型:量化加速可访问推断
Resource-Efficient Language Models: Quantization for Fast and Accessible Inference
作者: Tollef Emil J{\o}rgensen
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.08620v1

摘要

arXiv:2505.08620v1 宣告类型: 新增 摘要: 大型语言模型在自然语言处理方面取得了显著进展,但它们对硬件的高资源需求给硬件 accessibility 和能耗带来了严峻挑战。本文对旨在通过终端用户优化大型语言模型推理效率的后训练量化(PTQ)技术进行了集中而高层次的review,包括各种量化方案、粒度和权衡的具体细节。目标是在后训练量化理论与应用之间提供一个平衡的概述。