LLM2D
MicroScopiQ:通过异常值感知微缩量化加速基础模型
MicroScopiQ: Accelerating Foundational Models through Outlier-Aware Microscaling Quantization
作者: Akshat Ramachandran, Souvik Kundu, Tushar Krishna
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2411.05282v4

摘要

arXiv:2411.05282v4 通告类型: replace-cross 摘要:对基础模型(FMs)进行量化比传统的DNNs更具挑战性,因为出现了被称为离群值的大数值。现有的离群值感知的算法-架构协同设计技术要么使用混合精度,保留高精度的离群值但牺牲硬件效率,要么对Inliers和离群值进行相同精度的量化,从而提高硬件效率但以牺牲精度为代价。为了解决这种互斥性,我们提出了MicroScopiQ,这是一种新颖的协同设计技术,利用修剪来补充离群值感知的量化。MicroScopiQ 在更高的精度下保留离群值,同时修剪一定比例最不重要的权重,以分配额外的离群值位;这确保了高精度、对齐的内存和硬件效率。我们设计了一个高吞吐量、低开销的加速器架构,该架构由具有多精度INT处理单元和名为ReCoN的网络-on-芯片组成,该网络能够高效地抽象支持高精度离群值的复杂性。此外,与先前的技术不同,MicroScopiQ 不假设离群值权重的局部性,使其适用于广泛的FMs。在各种量化设置下的广泛实验表明,MicroScopiQ 达到了最先进的量化精度,同时在现有替代方案的基础上分别实现了高达3倍的更快推理和2倍的更低能耗。代码可在以下地址获取:https://github.com/georgia-tech-synergy-lab/MicroScopiQ-LLM-Quantization