摘要
近年来,直接将语音从一种语言翻译成另一种语言,即端到端语音到语音翻译,在研究领域引起了越来越多的关注和趋势。然而,大多数端到端模型难以超越级联模型的性能,即通过串联语音识别、机器翻译和文本到语音模型的管道框架。主要挑战来自于直接翻译任务固有的复杂性和数据稀缺性。在本研究中,我们提出了一种新的模型框架TransVIP,它以级联的方式利用了不同的数据集,但通过联合概率促进了端到端推理。此外,我们提出了两个独立的编码器,以在翻译过程中保留源语音中的说话人语音特征和等时性,使其高度适用于视频配音等场景。我们在法语-英语语言对上的实验表明,我们的模型优于现有的最先进的语音到语音翻译模型。