LLM2D
PIM-LLM:一种高吞吐量的混合PIM架构用于1比特大型语言模型
PIM-LLM: A High-Throughput Hybrid PIM Architecture for 1-bit LLMs
作者: Jinendra Malekar, Peyton Chandarana, Md Hasibul Amin, Mohammed E. Elbtity, Ramtin Zand
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2504.01994v1

摘要

arXiv:2504.01994v1 宣告类型: 交叉 摘要: 在本文中,我们提出了PIM-LLM,一种用于加速1比特大语言模型(LLMs)的混合架构。PIM-LLM 利用了模拟处理-in-内存(PIM)架构和数字 systolic 数组,分别加速了1比特 LLMs 中投影层的低精度矩阵乘法(MatMul)操作和注意力头中的高精度 MatMul 操作。我们的设计在每秒token数方面实现了约80倍的改善,并在每焦耳token数方面提高了70%。此外,PIM-LLM 比之前的基于PIM的LLM加速器表现更佳,分别在GOPS和GOPS/W方面至少提高了2倍和5倍。