LLM2D

摘要

近年来，直接将语音从一种语言翻译成另一种语言，即端到端语音到语音翻译，在研究领域引起了越来越多的关注和趋势。然而，大多数端到端模型难以超越级联模型的性能，即通过串联语音识别、机器翻译和文本到语音模型的管道框架。主要挑战来自于直接翻译任务固有的复杂性和数据稀缺性。在本研究中，我们提出了一种新的模型框架TransVIP，它以级联的方式利用了不同的数据集，但通过联合概率促进了端到端推理。此外，我们提出了两个独立的编码器，以在翻译过程中保留源语音中的说话人语音特征和等时性，使其高度适用于视频配音等场景。我们在法语-英语语言对上的实验表明，我们的模型优于现有的最先进的语音到语音翻译模型。