LLM2D

摘要

arXiv:2409.06635v4 宣告类型: 更换交叉引用摘要：大型语言模型（LLMs）的迅速发展显着增强了自然语言处理能力，促进了既能处理和理解语音和音频输入又能处理文本的AudioLLMs的发展。现有的AudioLLMs通常结合了一个预训练的音频编码器和一个预训练的LLM，并在特定的音频任务上进行微调。然而，预训练的音频编码器在捕捉新任务和数据集的特征方面能力有限。为了解决这个问题，我们提议将“弱”编码器混合（MoWE）引入AudioLLM框架中。MoWE通过为基编码器添加一个相对较轻量级编码器的池，并根据音频输入选择性地激活它们，以增强特征提取而不显著增加模型大小。我们的实验结果表明，MoWE有效提升了多任务性能，使AudioLLMs能够应用到更多样化的音频任务中。