LLM2D

摘要

arXiv:2504.01994v1 宣告类型: 交叉摘要: 在本文中，我们提出了PIM-LLM，一种用于加速1比特大语言模型（LLMs）的混合架构。PIM-LLM 利用了模拟处理-in-内存（PIM）架构和数字 systolic 数组，分别加速了1比特 LLMs 中投影层的低精度矩阵乘法（MatMul）操作和注意力头中的高精度 MatMul 操作。我们的设计在每秒token数方面实现了约80倍的改善，并在每焦耳token数方面提高了70%。此外，PIM-LLM 比之前的基于PIM的LLM加速器表现更佳，分别在GOPS和GOPS/W方面至少提高了2倍和5倍。