LLM2D
Home
Arxiv
返回列表
SoftmAP:基于关联处理器的纯整数Softmax的软硬件协同设计
SoftmAP: Software-Hardware Co-design for Integer-Only Softmax on Associative Processors
作者:
Mariam Rakka, Jinhao Li, Guohao Dai, Ahmed Eltawil, Mohammed E. Fouda, Fadi Kurdahi
发布日期:
11/28/2024
arXiv ID:
oai:arXiv.org:2411.17847v1
摘要
大型语言模型 (LLM) 的计算和内存开销过大,限制了其在资源受限设备上的应用,因此近期的研究重点在于降低其开销。尽管压缩技术取得了进展,但Softmax和LayerNorm等非线性算子由于其对量化的敏感性,仍然是瓶颈。我们提出了一种软硬件协同设计方法SoftmAP,该方法利用内存计算 (IMC) 硬件实现了一种仅使用整数的低精度Softmax。与A100和RTX3090 GPU相比,我们的方法在能量延迟积方面实现了高达三个数量级的改进,从而在不影响性能的情况下提高了LLM的部署能力。
查看原文
下载 PDF