LLM2D
XAMBA:在资源受限的神经处理单元上启用高效的状态空间模型
XAMBA: Enabling Efficient State Space Models on Resource-Constrained Neural Processing Units
作者: Arghadip Das, Arnab Raha, Shamik Kundu, Soumendu Kumar Ghosh, Deepak Mathaikutty, Vijay Raghunathan
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.06924v2

摘要

arXiv:2502.06924v2 通知类型: replace-cross 摘要:状态空间模型(SSMs)已成为序列数据任务中变压器的有效替代方案,提供了随序列长度线性或近乎线性的可扩展性,使其成为长序列在自然语言处理、视觉和边缘AI中的理想选择,包括实时转录、翻译和上下文搜索。这些应用需要在资源受限的设备(如笔记本电脑和台式机)上进行轻量级、高性能的模型部署。为每种新兴神经网络设计专门的加速器成本高昂且不切实际;相反,优化现有的AI台式机中的神经处理单元(NPU)以满足关键性能指标(KPI)要求,提供了一种可扩展的解决方案。为此,我们提出了XAMBA,这是第一个用于使状态空间模型能够在商用现成(COTS)的最先进的(SOTA)NPU上运行和优化的框架。XAMBA遵循三步方法论:(1)使NPU上运行状态空间模型,(2)优化性能以满足KPI要求,(3)通过牺牲一些准确性来获得额外的性能增益。在使NPU上运行状态空间模型之后,XAMBA通过CumBA和ReduBA来缓解关键瓶颈,用基于矩阵的计算替换顺序的CumSum和ReduceSum操作,显著提高执行速度和内存效率。此外,ActiBA通过使用分段线性映射近似昂贵的激活函数(例如,Swish、Softplus),减少延迟并最小化准确性损失,从而提高性能。对Intel Core Ultra Series 2 AI台式机的评估显示,XAMBA比基线快2.6倍。我们的实现可在https://github.com/arghadippurdue/XAMBA获取。