摘要
arXiv:2409.06635v4 宣告类型: 更换交叉引用
摘要:大型语言模型(LLMs)的迅速发展显着增强了自然语言处理能力,促进了既能处理和理解语音和音频输入又能处理文本的AudioLLMs的发展。现有的AudioLLMs通常结合了一个预训练的音频编码器和一个预训练的LLM,并在特定的音频任务上进行微调。然而,预训练的音频编码器在捕捉新任务和数据集的特征方面能力有限。为了解决这个问题,我们提议将“弱”编码器混合(MoWE)引入AudioLLM框架中。MoWE通过为基编码器添加一个相对较轻量级编码器的池,并根据音频输入选择性地激活它们,以增强特征提取而不显著增加模型大小。我们的实验结果表明,MoWE有效提升了多任务性能,使AudioLLMs能够应用到更多样化的音频任务中。