LLM2D

XAMBA: 在资源受限的神经处理单元上使能高效的态空间模型

XAMBA: Enabling Efficient State Space Models on Resource-Constrained Neural Processing Units

作者: Arghadip Das, Arnab Raha, Shamik Kundu, Soumendu Kumar Ghosh, Deepak Mathaikutty, Vijay Raghunathan

发布日期: 2/12/2025

arXiv ID: oai:arXiv.org:2502.06924v1

摘要

arXiv:2502.06924v1 Announce Type: cross 摘要：状态空间模型（SSMs）已成为序列数据任务中变压器的高效替代方案，它们在序列长度上提供线性或接近线性的可扩展性，使它们在NLP、计算机视觉和边缘AI等长序列应用中成为理想之选，包括实时转录、翻译和上下文搜索。这些应用需要在资源受限的设备（如笔记本电脑和台式机）上进行轻量级、高性能的模型部署。为每种新兴神经网络设计专用加速器是成本高昂且不切实际的，相反，针对AI台式机上的现有NPUs优化模型提供了一种可扩展的解决方案。为此，我们提出了XAMBA，这是首款使SSMs能够在商用即用型（COTS）最先进的（SOTA）NPUs上运行和优化的框架。XAMBA遵循三步法：（1）在NPUs上使能SSMs，（2）优化性能以满足KPI要求，（3）牺牲一定的准确性以获得额外的性能增益。在使能SSMs在NPUs上运行之后，XAMBA通过CumBA和ReduBA缓解了关键瓶颈，用基于矩阵的计算替代了顺序的CumSum和ReduceSum操作，显著提高了执行速度和内存效率。此外，ActiBA通过使用分段线性映射近似昂贵的激活函数（例如Swish、Softplus），减少了延迟并保持了最小的准确损失，从而提升了性能。在Intel Core Ultra系列2 AI台式机上的评估显示，XAMBA相较于基准模型最多可实现2.6倍的加速。我们的实现可在https://github.com/arghadippurdue/XAMBA获取。

查看原文下载 PDF