LLM2D

摘要

arXiv:2502.06924v3 宣告类型: replace-cross 摘要：状态空间模型（SSMs）已成为序列数据任务中 transformer 的有效替代方案，提供了随序列长度呈线性或接近线性可扩展性，使其成为自然语言处理、视觉和边缘AI等长序列应用的理想选择，包括实时转录、翻译和语境搜索。这些应用需要轻量级、高性能的模型，以便部署在资源受限的设备上，如笔记本电脑和平板电脑。为每种新兴的神经网络专门设计加速器代价高昂且不切实际；相反，优化现有AI PC中的NPUs可以提供一种可扩展的解决方案。为此，我们提出XAMBA，这是第一个框架，用于在商用现货（COTS）的最先进的（SOTA）NPUs上启用和优化SSMs。XAMBA采用三步方法：（1）在NPUs上启用SSMs，（2）优化性能以满足KPI要求，（3）牺牲准确性以获取额外的性能增益。在NPUs上启用SSMs后，XAMBA使用CumBA和ReduBA来缓解关键瓶颈，用基于矩阵的计算替换顺序的CumSum和ReduceSum操作，显著提高了执行速度和内存效率。此外，ActiBA通过使用分段线性映射近似昂贵的激活函数（例如，Swish，Softplus），减少延迟并仅导致微小的准确性损失，来提高性能。在Intel Core Ultra Series 2 AI PC上的评估表明，XAMBA比基线快2.6倍。我们的实现可在https://github.com/arghadippurdue/XAMBA获取。