LLM2D

摘要

本文提出了一种基于混合专家（MoE）连接器的语音条件大型语言模型（LLM），用于解决自动语音识别（ASR）中的代码切换（CS）挑战。具体来说，我们提出了一种插入和删除中断标记（IDIT）机制，以提高LLM在语音识别任务中的文本生成能力。我们还提出了一种具有MoE架构的连接器，可以有效地管理多种语言。为了进一步增强多个专家的协作并利用LLM的理解能力，我们提出了一种两阶段渐进式训练策略：1）解冻连接器并使用语言专用专家进行训练，以将语音表示映射到文本空间。2）使用提出的IDIT机制训练连接器和LLM LoRA适配器，并激活所有专家以学习通用表示。实验结果表明，我们的方法显著优于最先进的模型，包括端到端和大型音频语言模型。