摘要
大规模语言模型(LLMs)的快速进步显著提升了自然语言处理能力,推动了能够处理和理解语音及音频输入的AudioLLMs的发展。现有的AudioLLMs通常结合了预训练的音频编码器和预训练的LLM,并在特定音频任务上进行微调。然而,预训练的音频编码器在捕捉新任务和数据集特征方面能力有限。为了解决这一问题,我们提出在AudioLLM框架中引入“弱”编码器的混合(MoWE)。MoWE通过在基础编码器上补充一组相对轻量的编码器,根据音频输入有选择地激活这些编码器,从而增强特征提取能力,而不会显著增加模型的大小。我们的实证结果表明,MoWE有效提升了多任务性能,拓宽了AudioLLMs在更多样化音频任务中的适用性。