LLM2D
IMC阵列的低秩压缩
Low-Rank Compression for IMC Arrays
作者: Kang Eun Jeon, Johnny Rhe, Jong Hwan Ko
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.07820v1

摘要

arXiv:2502.07820v1 Announce Type: cross 摘要: 在内存计算(IMC)架构的背景下,我们解决了低秩模型压缩的挑战。传统的剪枝方法虽然可以在模型尺寸上取得有效的缩减,但需要额外的辅助电路来管理复杂的数据流并减轻错位问题,这导致了增加的面积和能量 overhead。为了克服这些缺点,我们提出了利用低秩压缩技术,与剪枝不同,低秩压缩技术可以简化数据流并无缝地与 IMC 架构集成。然而,低秩压缩技术也带来了自身的挑战,即 i) IMC 数组利用率不佳,以及 ii) 准确性降低。为了解决这些问题,我们提出了一个新的方法,i) 使用移位和复制核(SDK) 映射技术,通过利用空闲的 IMC 列进行并行处理,ii) 使用分组低秩卷积,以缓解分解矩阵中的信息不平衡。我们的实验结果表明,我们的方法在现有剪枝技术的基础上实现了高达 2.5 倍的加速或 20.9% 准确性的提升。