LLM2D

摘要

arXiv:2409.06635v3 宣告类型: replace-cross 摘要：大规模语言模型（LLMs）的迅速发展显著增强了自然语言处理能力，促进了能够处理和理解语音和音频输入的AudioLLMs的发展。现有的AudioLLMs通常将预训练的音频编码器与预训练的LLM结合使用，随后对特定的音频任务进行微调。然而，预训练的音频编码器在捕捉新任务和数据集中的特征方面受到了限制。为了解决这一问题，我们提出在AudioLLM框架中引入混合的“弱”编码器（MoWE）。MoWE通过添加一个基础编码器以及一组相对较轻量的编码器，这些编码器可以根据音频输入的选择性激活来增强特征提取，而不会显著增加模型大小。我们的实验证明，MoWE有效提高了多任务性能，使得AudioLLMs能够应用于更广泛的音频任务。