摘要
arXiv:2502.05980v1 交叉类型公告
摘要:级联基于的语音到语音翻译长期以来被视为一个基准,但受到许多问题的困扰,如将一种语言的语音翻译成另一种语言所需的时间以及复合错误。这些问题的原因在于级联方法使用了诸如语音识别、语音到文本翻译和最终的文本到语音翻译等多种方法的组合。Google 设计了 Translatotron,这是一个基于序列到序列的直接语音到语音翻译模型,以解决与级联模型相关联的复合错误问题。今天,Translatotron 模型有三个版本:Translatotron 1、Translatotron 2 和 Translatotron 3。第一版旨在证明直接语音到语音翻译的可能性,它发现不如级联模型有效,但产生了令人鼓舞的结果。Translatotron 2 是 Translatotron 1 的改进版本,其结果与级联模型相似。Translatotron 3 是模型的最新版本,在某些方面优于级联模型。在本文中,将全面回顾语音到语音翻译,特别是重点介绍 Translatotron 模型的所有版本。我们还将展示 Translatotron 是连接非洲语言和其他规范化语言之间差距的最佳模型。