LLM2D

摘要

arXiv:2502.05980v2 宣告类型: 替换-交叉摘要：瀑布模型的语音到语音翻译长期以来被视为一个基准，但受到许多问题的困扰，比如将一种语言的语音翻译成另一种语言所需的时间以及复合错误。这些问题源于瀑布模型结合了语音识别、语音到文本翻译和最终的文本到语音翻译等多种方法。谷歌设计了Translatotron模型，这是一种直接语音到语音翻译的序列到序列模型，旨在解决与瀑布模型相关的复合错误问题。目前，Translatotron模型有三个版本：Translatotron 1、Translatotron 2 和 Translatotron 3。第一个版本被设计为概念验证，以证明直接语音到语音翻译的可能性，虽然它的效果不如瀑布模型，但显示出令人鼓舞的结果。Translatotron 2 是Translatotron 1 的改进版本，其结果与瀑布模型相似。Translatotron 3 作为最新的模型，在某些方面优于瀑布模型。在本文中，我们将对语音到语音翻译进行全面回顾，特别是重点介绍所有版本的Translatotron模型。我们还将展示，Translatotron是填补非洲语言与其他正式语言之间语言鸿沟的最佳模型。