LLM2D
SparAMX:在AMX动力CPU上加速压缩LLM tokens生成
SparAMX: Accelerating Compressed LLMs Token Generation on AMX-powered CPUs
作者: Ahmed F. AbouElhamayed, Jordan Dotzel, Yash Akhauri, Chi-Chih Chang, Sameh Gobriel, J. Pablo Mu\~noz, Vui Seng Chua, Nilesh Jain, Mohamed S. Abdelfattah
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12444v1

摘要

arXiv:2502.12444v1 宣传类型:交叉 摘要:大型语言模型对计算资源、延迟和内存有高要求。虽然专用加速器如GPU和TPU通常用于运行这些工作负载,但CPU更为普及,并消耗更少的能量。通过使用CPU加速语言模型可以使AI的访问更加广泛,同时降低成本和能耗。在语言模型推理的内存受限解码阶段,这种CPU加速潜力尤其重要,该阶段每次处理一个词元并且随着基于推理的模型使用频率的增加而变得越来越重要。我们通过在最新一代的Intel CPU上利用Advanced Matrix Extensions (AMX) 支持与无结构稀疏性结合,相对于当前的PyTorch实现,在线性层上应用我们的技术以达到端到端延迟减少1.42倍。我们提供了一组开源定制化稀疏内核,可以在任何PyTorch模型上自动用我们的定制稀疏实现替代所有线性层,从而加速模型。此外,我们首次展示了在注意力计算中使用无结构稀疏性,该方法相对于当前系统速度提升1.14倍,同时保持准确性。代码:https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning/tree/main/SparAMX