LLM2D
如何将语音基础模型与大型语言模型连接?哪些因素重要,哪些因素无关紧要?
How to Connect Speech Foundation Models and Large Language Models? What Matters and What Does Not
作者: Francesco Verdini, Pierfrancesco Melucci, Stefano Perna, Francesco Cariaggi, Marco Gaido, Sara Papi, Szymon Mazurek, Marek Kasztelnik, Luisa Bentivogli, S\'ebastien Brati\`eres, Paolo Merialdo, Simone Scardapane
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2409.17044v1

摘要

大型语言模型 (LLM) 的出色表现推动了研究人员将其用于各种任务和输入模态的努力。在语音到文本 (S2T) 任务中,新兴的解决方案包括通过适配器模块将语音基础模型 (SFM) 编码器的输出投影到 LLM 嵌入空间。然而,还没有工作调查下游任务性能在多大程度上依赖于每个组件(SFM、适配器、LLM),或者适配器的最佳设计是否取决于所选的 SFM 和 LLM。为了填补这一空白,我们在两个广泛的 S2T 任务(即自动语音识别和语音翻译)上评估了 5 个适配器模块、2 个 LLM(Mistral 和 Llama)和 2 个 SFM(Whisper 和 SeamlessM4T)的组合。我们的结果表明,SFM 在下游性能中起着至关重要的作用,而适配器选择的影响适中,并且取决于 SFM 和 LLM。