摘要
arXiv:2502.06924v2 通知类型: replace-cross
摘要:状态空间模型(SSMs)已成为序列数据任务中变压器的有效替代方案,提供了随序列长度线性或近乎线性的可扩展性,使其成为长序列在自然语言处理、视觉和边缘AI中的理想选择,包括实时转录、翻译和上下文搜索。这些应用需要在资源受限的设备(如笔记本电脑和台式机)上进行轻量级、高性能的模型部署。为每种新兴神经网络设计专门的加速器成本高昂且不切实际;相反,优化现有的AI台式机中的神经处理单元(NPU)以满足关键性能指标(KPI)要求,提供了一种可扩展的解决方案。为此,我们提出了XAMBA,这是第一个用于使状态空间模型能够在商用现成(COTS)的最先进的(SOTA)NPU上运行和优化的框架。XAMBA遵循三步方法论:(1)使NPU上运行状态空间模型,(2)优化性能以满足KPI要求,(3)通过牺牲一些准确性来获得额外的性能增益。在使NPU上运行状态空间模型之后,XAMBA通过CumBA和ReduBA来缓解关键瓶颈,用基于矩阵的计算替换顺序的CumSum和ReduceSum操作,显著提高执行速度和内存效率。此外,ActiBA通过使用分段线性映射近似昂贵的激活函数(例如,Swish、Softplus),减少延迟并最小化准确性损失,从而提高性能。对Intel Core Ultra Series 2 AI台式机的评估显示,XAMBA比基线快2.6倍。我们的实现可在https://github.com/arghadippurdue/XAMBA获取。