摘要
arXiv:2504.01994v1 宣告类型: 交叉
摘要: 在本文中,我们提出了PIM-LLM,一种用于加速1比特大语言模型(LLMs)的混合架构。PIM-LLM 利用了模拟处理-in-内存(PIM)架构和数字 systolic 数组,分别加速了1比特 LLMs 中投影层的低精度矩阵乘法(MatMul)操作和注意力头中的高精度 MatMul 操作。我们的设计在每秒token数方面实现了约80倍的改善,并在每焦耳token数方面提高了70%。此外,PIM-LLM 比之前的基于PIM的LLM加速器表现更佳,分别在GOPS和GOPS/W方面至少提高了2倍和5倍。