LLM2D

摘要

最近在大语言模型（LLM）方面的进展彻底改变了自然语言处理领域，并逐步扩展到多模态感知和生成。然而，将听力能力有效地集成到LLM中面临显著挑战，尤其是在跨不同上下文进行泛化和执行复杂听力任务方面。在这项工作中，我们介绍了WavLLM，这是一种具有双编码器和感知提示的LoRA权重适配器的强大且适应性强的语音大语言模型，经过两阶段课程学习方法优化。通过双编码器，我们解耦了不同类型的语音信息，利用Whisper编码器处理语音的语义内容，并使用WavLM编码器捕捉说话者身份的独特特征。在课程学习框架内，WavLLM首先通过优化混合的基础单一任务建立其基础能力，然后通过更复杂任务如基础任务组合的高级多任务训练进行优化。为了增强对不同任务和指令的灵活性和遵从性，在第二阶段的高级多任务训练中引入了感知提示的LoRA权重适配器。我们在包括ASR、ST、SV、ER等任务的通用语音基准上验证了所提出的模型，并将其应用于如高考英语听力理解集用于SQA和语音CoT评估集等专门数据集。实验表明，所提出的模型在相同模型规模上在一系列语音任务中达到了最先进的性能，展示了在使用CoT方法执行复杂任务时的强大泛化能力。此外，我们的模型在没有专门训练的情况下成功完成了高考任务。代码、模型、音频和高考评估集可以在 \url{aka.ms/wavllm} 获取。