摘要
arXiv:2502.06924v3 宣告类型: replace-cross
摘要:状态空间模型(SSMs)已成为序列数据任务中 transformer 的有效替代方案,提供了随序列长度呈线性或接近线性可扩展性,使其成为自然语言处理、视觉和边缘AI等长序列应用的理想选择,包括实时转录、翻译和语境搜索。这些应用需要轻量级、高性能的模型,以便部署在资源受限的设备上,如笔记本电脑和平板电脑。为每种新兴的神经网络专门设计加速器代价高昂且不切实际;相反,优化现有AI PC中的NPUs可以提供一种可扩展的解决方案。为此,我们提出XAMBA,这是第一个框架,用于在商用现货(COTS)的最先进的(SOTA)NPUs上启用和优化SSMs。XAMBA采用三步方法:(1)在NPUs上启用SSMs,(2)优化性能以满足KPI要求,(3)牺牲准确性以获取额外的性能增益。在NPUs上启用SSMs后,XAMBA使用CumBA和ReduBA来缓解关键瓶颈,用基于矩阵的计算替换顺序的CumSum和ReduceSum操作,显著提高了执行速度和内存效率。此外,ActiBA通过使用分段线性映射近似昂贵的激活函数(例如,Swish,Softplus),减少延迟并仅导致微小的准确性损失,来提高性能。在Intel Core Ultra Series 2 AI PC上的评估表明,XAMBA比基线快2.6倍。我们的实现可在https://github.com/arghadippurdue/XAMBA获取。