LLM2D

摘要

本研究旨在探索基于令牌缩减的多任务语音语言模型 (SpeechLM) 的高效推理。与视觉或文本等其他模态不同，语音具有独特的时序依赖性，使得以前针对其他模态的高效推理方法无法直接应用。此外，针对长序列和稀疏信号的 SpeechLM 高效推理方法仍未得到充分探索。因此，我们提出了 FastAdaSP，一个专门针对各种语音相关任务的加权令牌合并框架，以改善效率和性能之间的权衡。在 WavLLM 和 Qwen-Audio 上的实验结果表明，与其他基线方法相比，我们的方法在效率和性能方面取得了最先进 (SOTA) 的权衡。具体而言，FastAdaSP 在情感识别 (ER) 和口语问答 (SQA) 等任务中实现了 7 倍的内存效率和 1.83 倍的解码吞吐量，而性能没有下降。代码将发布在 https://github.com/yichen14/FastAdaSP。