摘要
arXiv:2411.05282v4 通告类型: replace-cross
摘要:对基础模型(FMs)进行量化比传统的DNNs更具挑战性,因为出现了被称为离群值的大数值。现有的离群值感知的算法-架构协同设计技术要么使用混合精度,保留高精度的离群值但牺牲硬件效率,要么对Inliers和离群值进行相同精度的量化,从而提高硬件效率但以牺牲精度为代价。为了解决这种互斥性,我们提出了MicroScopiQ,这是一种新颖的协同设计技术,利用修剪来补充离群值感知的量化。MicroScopiQ 在更高的精度下保留离群值,同时修剪一定比例最不重要的权重,以分配额外的离群值位;这确保了高精度、对齐的内存和硬件效率。我们设计了一个高吞吐量、低开销的加速器架构,该架构由具有多精度INT处理单元和名为ReCoN的网络-on-芯片组成,该网络能够高效地抽象支持高精度离群值的复杂性。此外,与先前的技术不同,MicroScopiQ 不假设离群值权重的局部性,使其适用于广泛的FMs。在各种量化设置下的广泛实验表明,MicroScopiQ 达到了最先进的量化精度,同时在现有替代方案的基础上分别实现了高达3倍的更快推理和2倍的更低能耗。代码可在以下地址获取:https://github.com/georgia-tech-synergy-lab/MicroScopiQ-LLM-Quantization