摘要
arXiv:2502.05980v2 宣告类型: 替换-交叉
摘要:瀑布模型的语音到语音翻译长期以来被视为一个基准,但受到许多问题的困扰,比如将一种语言的语音翻译成另一种语言所需的时间以及复合错误。这些问题源于瀑布模型结合了语音识别、语音到文本翻译和最终的文本到语音翻译等多种方法。谷歌设计了Translatotron模型,这是一种直接语音到语音翻译的序列到序列模型,旨在解决与瀑布模型相关的复合错误问题。目前,Translatotron模型有三个版本:Translatotron 1、Translatotron 2 和 Translatotron 3。第一个版本被设计为概念验证,以证明直接语音到语音翻译的可能性,虽然它的效果不如瀑布模型,但显示出令人鼓舞的结果。Translatotron 2 是Translatotron 1 的改进版本,其结果与瀑布模型相似。Translatotron 3 作为最新的模型,在某些方面优于瀑布模型。在本文中,我们将对语音到语音翻译进行全面回顾,特别是重点介绍所有版本的Translatotron模型。我们还将展示,Translatotron是填补非洲语言与其他正式语言之间语言鸿沟的最佳模型。