LLM2D
APSQ: 增量部分和量化与算法-硬件联合设计
APSQ: Additive Partial Sum Quantization with Algorithm-Hardware Co-Design
作者: Yonghao Tan, Pingcheng Dong, Yongkun Wu, Yu Liu, Xuejiao Liu, Peng Luo, Shih-Yang Liu, Xijie Huang, Dong Zhang, Luhong Liang, Kwang-Ting Cheng
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2505.03748v1

摘要

arXiv:2505.03748v1 交叉类别公告类型 摘要:通过模型压缩和专门的数据流技术,深度神经网络(DNN)加速器取得了显著的进步。然而,在使用输入/权重静态数据流的架构中,频繁访问高精度部分和求和(PSUM)导致了过高的内存需求。传统的压缩策略通常忽略了PSUM量化,这可能占用了69%的功耗。本研究介绍了一种新颖的加性部分和量化(APSQ)方法,将PSUM积累无缝地集成到量化框架中。还提出了结合可重构架构增强的APSQ与PSUM量化的一种分组策略。APSQ在BERT、Segformer和EfficientViT模型上对NLP和CV任务几乎无损压缩PSUM至INT8,从而减少了28-87%的能量成本。在LLaMA2-7B上的扩展实验表明,APSQ对大型语言模型具有潜力。相关代码可在 https://github.com/Yonghao-Tan/APSQ 获取。