LLM2D

摘要

arXiv:2502.12444v1 宣传类型：交叉摘要：大型语言模型对计算资源、延迟和内存有高要求。虽然专用加速器如GPU和TPU通常用于运行这些工作负载，但CPU更为普及，并消耗更少的能量。通过使用CPU加速语言模型可以使AI的访问更加广泛，同时降低成本和能耗。在语言模型推理的内存受限解码阶段，这种CPU加速潜力尤其重要，该阶段每次处理一个词元并且随着基于推理的模型使用频率的增加而变得越来越重要。我们通过在最新一代的Intel CPU上利用Advanced Matrix Extensions (AMX) 支持与无结构稀疏性结合，相对于当前的PyTorch实现，在线性层上应用我们的技术以达到端到端延迟减少1.42倍。我们提供了一组开源定制化稀疏内核，可以在任何PyTorch模型上自动用我们的定制稀疏实现替代所有线性层，从而加速模型。此外，我们首次展示了在注意力计算中使用无结构稀疏性，该方法相对于当前系统速度提升1.14倍，同时保持准确性。代码：https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning/tree/main/SparAMX