LLM2D
状态空间大型音频语言模型
State-Space Large Audio Language Models
作者: Saurabhchand Bhati, Yuan Gong, Leonid Karlinsky, Hilde Kuehne, Rogerio Feris, James Glass
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.15685v1

摘要

大型音频语言模型 (LALM) 结合了音频感知模型和大型语言模型 (LLM),展现出对输入音频进行推理、推断含义和理解意图的显著能力。然而,这些系统依赖于 Transformer,其计算复杂度随输入序列长度二次增长,这在内存和时间受限的场景中部署这些系统时带来了计算挑战。最近,状态空间模型 (SSM) 已成为 Transformer 网络的替代方案。虽然已成功尝试用状态空间模型替换基于 Transformer 的音频感知模型,但基于状态空间的 LALM 仍未得到探索。首先,我们尝试替换基于 Transformer 的音频感知模块,然后替换基于 Transformer 的 LLM,并提出了第一个基于状态空间的 LALM。实验结果表明,基于状态空间的 LALM 尽管参数数量明显减少,但在各种数据集上的封闭式任务中,其性能与基于 Transformer 的 LALM 相当。