LLM2D

摘要

流式语音翻译 (ST) 模型如果使用大量源语言音频和目标语言书面文本对进行训练，可以实现高精度和低延迟。然而，由于人工 ST 数据标注成本过高，目标语言的文本标签通常是伪标签。本文提出了一种名为连接主义时间分类引导模态匹配 (CTC-GMM) 的方法，通过利用大量的机器翻译 (MT) 文本数据来增强流式 ST 模型。该技术利用 CTC 将语音序列压缩成一个紧凑的嵌入序列，该序列与相应的文本序列匹配，使我们能够利用 MT 语料库中匹配的 {源-目标} 语言文本对来进一步细化流式 ST 模型。我们使用 FLEURS 和 CoVoST2 进行的评估表明，CTC-GMM 方法可以分别将翻译精度提高 13.9% 和 6.4%，同时将 GPU 上的解码速度提高 59.7%。