LLM2D
高效的状态空间模型通过快速张量卷积和块对角化
Efficient State Space Model via Fast Tensor Convolution and Block Diagonalization
作者: Tongyi Liang, Han-Xiong Li
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2402.15290v4

摘要

arXiv:2402.15290v4 宣告类型: replace-cross 摘要:现有模型在建模长序列时难以在性能和计算效率之间取得平衡。尽管状态空间模型(SSM)在处理长序列任务方面取得了显著的成功,但它仍然面临着参数数量庞大的问题。为了进一步提高SSM的效率,我们提出了一种基于多输入多输出SSM的新状态空间层,称为高效状态空间模型(eSSM)。我们的eSSM基于多输入多输出(MIMO)SSM的卷积表示构建。我们提出了一系列有效的策略来提高计算效率。首先,系统矩阵的对角化将原始系统解耦。然后,基于快速傅里叶变换的快速张量卷积也被提出。此外,状态空间模型(SSM)的块对角化进一步减少了模型参数,并提高了模型的灵活性。广泛实验结果表明,所提出模型在多个数据库上的性能与当前最佳模型(如S4)相当,并且优于Transformer和LSTM。在模型效率基准测试中,eSSM的参数量仅为LSTM的12.89%和Mamba的13.24%。eSSM的训练速度分别比LSTM快3.94倍和比Mamba快1.35倍。代码可在以下链接获取:\href{https://github.com/leonty1/essm}{https://github.com/leonty1/essm}。