LLM2D

摘要

arXiv:2502.05980v1 交叉类型公告摘要：级联基于的语音到语音翻译长期以来被视为一个基准，但受到许多问题的困扰，如将一种语言的语音翻译成另一种语言所需的时间以及复合错误。这些问题的原因在于级联方法使用了诸如语音识别、语音到文本翻译和最终的文本到语音翻译等多种方法的组合。Google 设计了 Translatotron，这是一个基于序列到序列的直接语音到语音翻译模型，以解决与级联模型相关联的复合错误问题。今天，Translatotron 模型有三个版本：Translatotron 1、Translatotron 2 和 Translatotron 3。第一版旨在证明直接语音到语音翻译的可能性，它发现不如级联模型有效，但产生了令人鼓舞的结果。Translatotron 2 是 Translatotron 1 的改进版本，其结果与级联模型相似。Translatotron 3 是模型的最新版本，在某些方面优于级联模型。在本文中，将全面回顾语音到语音翻译，特别是重点介绍 Translatotron 模型的所有版本。我们还将展示 Translatotron 是连接非洲语言和其他规范化语言之间差距的最佳模型。