LLM2D
FastAdaSP:面向大型语音语言模型的多任务自适应高效推理
FastAdaSP: Multitask-Adapted Efficient Inference for Large Speech Language Model
作者: Yichen Lu, Jiaqi Song, Chao-Han Huck Yang, Shinji Watanabe
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.03007v1

摘要

本研究旨在探索基于令牌缩减的多任务语音语言模型 (SpeechLM) 的高效推理。与视觉或文本等其他模态不同,语音具有独特的时序依赖性,使得以前针对其他模态的高效推理方法无法直接应用。此外,针对长序列和稀疏信号的 SpeechLM 高效推理方法仍未得到充分探索。因此,我们提出了 FastAdaSP,一个专门针对各种语音相关任务的加权令牌合并框架,以改善效率和性能之间的权衡。在 WavLLM 和 Qwen-Audio 上的实验结果表明,与其他基线方法相比,我们的方法在效率和性能方面取得了最先进 (SOTA) 的权衡。具体而言,FastAdaSP 在情感识别 (ER) 和口语问答 (SQA) 等任务中实现了 7 倍的内存效率和 1.83 倍的解码吞吐量,而性能没有下降。代码将发布在 https://github.com/yichen14/FastAdaSP。