LLM2D
XAMBA: 在资源受限的神经处理单元上使能高效的态空间模型
XAMBA: Enabling Efficient State Space Models on Resource-Constrained Neural Processing Units
作者: Arghadip Das, Arnab Raha, Shamik Kundu, Soumendu Kumar Ghosh, Deepak Mathaikutty, Vijay Raghunathan
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.06924v1

摘要

arXiv:2502.06924v1 Announce Type: cross 摘要:状态空间模型(SSMs)已成为序列数据任务中变压器的高效替代方案,它们在序列长度上提供线性或接近线性的可扩展性,使它们在NLP、计算机视觉和边缘AI等长序列应用中成为理想之选,包括实时转录、翻译和上下文搜索。这些应用需要在资源受限的设备(如笔记本电脑和台式机)上进行轻量级、高性能的模型部署。为每种新兴神经网络设计专用加速器是成本高昂且不切实际的,相反,针对AI台式机上的现有NPUs优化模型提供了一种可扩展的解决方案。为此,我们提出了XAMBA,这是首款使SSMs能够在商用即用型(COTS)最先进的(SOTA)NPUs上运行和优化的框架。XAMBA遵循三步法:(1)在NPUs上使能SSMs,(2)优化性能以满足KPI要求,(3)牺牲一定的准确性以获得额外的性能增益。在使能SSMs在NPUs上运行之后,XAMBA通过CumBA和ReduBA缓解了关键瓶颈,用基于矩阵的计算替代了顺序的CumSum和ReduceSum操作,显著提高了执行速度和内存效率。此外,ActiBA通过使用分段线性映射近似昂贵的激活函数(例如Swish、Softplus),减少了延迟并保持了最小的准确损失,从而提升了性能。在Intel Core Ultra系列2 AI台式机上的评估显示,XAMBA相较于基准模型最多可实现2.6倍的加速。我们的实现可在https://github.com/arghadippurdue/XAMBA获取。