LLM2D

摘要

大型音频语言模型 (LALM) 结合了音频感知模型和大型语言模型 (LLM)，展现出对输入音频进行推理、推断含义和理解意图的显著能力。然而，这些系统依赖于 Transformer，其计算复杂度随输入序列长度二次增长，这在内存和时间受限的场景中部署这些系统时带来了计算挑战。最近，状态空间模型 (SSM) 已成为 Transformer 网络的替代方案。虽然已成功尝试用状态空间模型替换基于 Transformer 的音频感知模型，但基于状态空间的 LALM 仍未得到探索。首先，我们尝试替换基于 Transformer 的音频感知模块，然后替换基于 Transformer 的 LLM，并提出了第一个基于状态空间的 LALM。实验结果表明，基于状态空间的 LALM 尽管参数数量明显减少，但在各种数据集上的封闭式任务中，其性能与基于 Transformer 的 LALM 相当。