LLM2D

摘要

arXiv:2502.06924v2 通知类型: replace-cross 摘要：状态空间模型（SSMs）已成为序列数据任务中变压器的有效替代方案，提供了随序列长度线性或近乎线性的可扩展性，使其成为长序列在自然语言处理、视觉和边缘AI中的理想选择，包括实时转录、翻译和上下文搜索。这些应用需要在资源受限的设备（如笔记本电脑和台式机）上进行轻量级、高性能的模型部署。为每种新兴神经网络设计专门的加速器成本高昂且不切实际；相反，优化现有的AI台式机中的神经处理单元（NPU）以满足关键性能指标（KPI）要求，提供了一种可扩展的解决方案。为此，我们提出了XAMBA，这是第一个用于使状态空间模型能够在商用现成（COTS）的最先进的（SOTA）NPU上运行和优化的框架。XAMBA遵循三步方法论：（1）使NPU上运行状态空间模型，（2）优化性能以满足KPI要求，（3）通过牺牲一些准确性来获得额外的性能增益。在使NPU上运行状态空间模型之后，XAMBA通过CumBA和ReduBA来缓解关键瓶颈，用基于矩阵的计算替换顺序的CumSum和ReduceSum操作，显著提高执行速度和内存效率。此外，ActiBA通过使用分段线性映射近似昂贵的激活函数（例如，Swish、Softplus），减少延迟并最小化准确性损失，从而提高性能。对Intel Core Ultra Series 2 AI台式机的评估显示，XAMBA比基线快2.6倍。我们的实现可在https://github.com/arghadippurdue/XAMBA获取。