LLM2D

摘要

大型语言模型 (LLM) 的出色表现推动了研究人员将其用于各种任务和输入模态的努力。在语音到文本 (S2T) 任务中，新兴的解决方案包括通过适配器模块将语音基础模型 (SFM) 编码器的输出投影到 LLM 嵌入空间。然而，还没有工作调查下游任务性能在多大程度上依赖于每个组件（SFM、适配器、LLM），或者适配器的最佳设计是否取决于所选的 SFM 和 LLM。为了填补这一空白，我们在两个广泛的 S2T 任务（即自动语音识别和语音翻译）上评估了 5 个适配器模块、2 个 LLM（Mistral 和 Llama）和 2 个 SFM（Whisper 和 SeamlessM4T）的组合。我们的结果表明，SFM 在下游性能中起着至关重要的作用，而适配器选择的影响适中，并且取决于 SFM 和 LLM。