LLM2D
TransVIP:保留语音和等时性的语音到语音翻译系统
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation
作者: Chenyang Le, Yao Qian, Dongmei Wang, Long Zhou, Shujie Liu, Xiaofei Wang, Midia Yousefi, Yanmin Qian, Jinyu Li, Sheng Zhao, Michael Zeng
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2405.17809v2

摘要

近年来,直接将语音从一种语言翻译成另一种语言,即端到端语音到语音翻译,在研究领域引起了越来越多的关注和趋势。然而,大多数端到端模型难以超越级联模型的性能,即通过串联语音识别、机器翻译和文本到语音模型的管道框架。主要挑战来自于直接翻译任务固有的复杂性和数据稀缺性。在本研究中,我们提出了一种新的模型框架TransVIP,它以级联的方式利用了不同的数据集,但通过联合概率促进了端到端推理。此外,我们提出了两个独立的编码器,以在翻译过程中保留源语音中的说话人语音特征和等时性,使其高度适用于视频配音等场景。我们在法语-英语语言对上的实验表明,我们的模型优于现有的最先进的语音到语音翻译模型。