LLM2D

摘要

arXiv:2505.08620v1 宣告类型: 新增摘要: 大型语言模型在自然语言处理方面取得了显著进展，但它们对硬件的高资源需求给硬件 accessibility 和能耗带来了严峻挑战。本文对旨在通过终端用户优化大型语言模型推理效率的后训练量化(PTQ)技术进行了集中而高层次的review，包括各种量化方案、粒度和权衡的具体细节。目标是在后训练量化理论与应用之间提供一个平衡的概述。