LLM2D

摘要

本文研究了一种基于端到端语音翻译的新方法，该方法通过一个小连接模块（Q-Former，我们的子采样器-Transformer编码器）对冻结的预训练自动语音识别（ASR）和机器翻译（MT）模型进行对齐。该连接器弥合了语音和文本模态之间的差距，将ASR编码器嵌入转换为MT编码器的潜在表示空间，并且是训练过程中系统中唯一优化的部分。我们在How2英语-葡萄牙语数据集上进行了实验，研究了小规模场景下语音翻译的对齐方法。在保持连接模块的大小恒定且相对较小（小于对齐模型总大小的5%）的情况下，增加基础ASR和MT模型的大小和能力普遍提高了翻译结果。我们还发现，连接器可以作为基础MT模型的领域适配器，显著提高对齐语音翻译设置下的翻译性能。我们得出结论，这种方法代表了一种可行且可扩展的端到端语音翻译系统训练方法。