LLM2D

摘要

大规模语言模型（LLMs）的快速进步显著提升了自然语言处理能力，推动了能够处理和理解语音及音频输入的AudioLLMs的发展。现有的AudioLLMs通常结合了预训练的音频编码器和预训练的LLM，并在特定音频任务上进行微调。然而，预训练的音频编码器在捕捉新任务和数据集特征方面能力有限。为了解决这一问题，我们提出在AudioLLM框架中引入“弱”编码器的混合（MoWE）。MoWE通过在基础编码器上补充一组相对轻量的编码器，根据音频输入有选择地激活这些编码器，从而增强特征提取能力，而不会显著增加模型的大小。我们的实证结果表明，MoWE有效提升了多任务性能，拓宽了AudioLLMs在更多样化音频任务中的适用性。