摘要
当前最先进的语音识别模型被训练为将声学信号映射到亚词单位。虽然这些模型表现出优越的性能,但它们仍然容易受到诸如背景噪声和语音增强等分布外条件的影响。在这项工作中,我们假设在语音识别过程中加入说话人表征可以增强模型对噪声的鲁棒性。我们开发了一种基于Transformer的模型,该模型联合执行语音识别和说话人识别。我们的模型利用来自Whisper的语音嵌入和来自ECAPA-TDNN的说话人嵌入,这些嵌入被联合处理以执行这两个任务。我们表明,联合模型在干净条件下的性能与Whisper相当。值得注意的是,联合模型在高噪声环境中(例如,具有8个说话人混响背景噪声)的性能优于Whisper。此外,我们的联合模型在处理高度增强的语音方面表现出色,包括正弦波和噪声编码语音。总的来说,这些结果表明,将语音表征与语音识别相结合可以导致在对抗性条件下更强大的模型。