摘要
本文研究了一种基于端到端语音翻译的新方法,该方法通过一个小连接模块(Q-Former,我们的子采样器-Transformer编码器)对冻结的预训练自动语音识别(ASR)和机器翻译(MT)模型进行对齐。该连接器弥合了语音和文本模态之间的差距,将ASR编码器嵌入转换为MT编码器的潜在表示空间,并且是训练过程中系统中唯一优化的部分。我们在How2英语-葡萄牙语数据集上进行了实验,研究了小规模场景下语音翻译的对齐方法。在保持连接模块的大小恒定且相对较小(小于对齐模型总大小的5%)的情况下,增加基础ASR和MT模型的大小和能力普遍提高了翻译结果。我们还发现,连接器可以作为基础MT模型的领域适配器,显著提高对齐语音翻译设置下的翻译性能。我们得出结论,这种方法代表了一种可行且可扩展的端到端语音翻译系统训练方法。