LLM2D
混合专家增强语音条件化大型语言模型提升代码切换自动语音识别
Boosting Code-Switching ASR with Mixture of Experts Enhanced Speech-Conditioned LLM
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2409.15905v1

摘要

本文提出了一种基于混合专家(MoE)连接器的语音条件大型语言模型(LLM),用于解决自动语音识别(ASR)中的代码切换(CS)挑战。具体来说,我们提出了一种插入和删除中断标记(IDIT)机制,以提高LLM在语音识别任务中的文本生成能力。我们还提出了一种具有MoE架构的连接器,可以有效地管理多种语言。为了进一步增强多个专家的协作并利用LLM的理解能力,我们提出了一种两阶段渐进式训练策略:1)解冻连接器并使用语言专用专家进行训练,以将语音表示映射到文本空间。2)使用提出的IDIT机制训练连接器和LLM LoRA适配器,并激活所有专家以学习通用表示。实验结果表明,我们的方法显著优于最先进的模型,包括端到端和大型音频语言模型。