摘要
arXiv:2504.07858v1 宣告类型: cross
摘要:文本到语音(TTS)技术在广泛使用的语言上取得了显著成果,但许多资源不足的语言仍因数据有限和语言复杂性而受到挑战。在本文中,我们提出了一种新的方法,将数据优化框架与先进的声学模型相结合,以构建适用于低资源场景的高质量TTS系统。我们通过泰国语作为示例,展示了这种方法的有效性,其中复杂的音素规则和稀疏资源得以有效解决。我们的方法使得零样本语音克隆和跨多种客户端应用的性能改进成为可能,这些应用从金融、医疗保健、教育到法律领域都有涉及。广泛的评估(包括主观和客观评估)证实了我们的模型达到了最先进的标准,提供了一种在数据有限的设置下生产TTS的可扩展解决方案,对更广泛行业的采用和多语言 accessibility具有重大影响。