摘要
本文介绍了 VoxHakka,一个专为台湾客家语设计的文本转语音 (TTS) 系统,客家语是一种在台湾使用的资源极度匮乏的语言。利用 YourTTS 框架,VoxHakka 在语音合成中实现了高自然度和准确性以及较低的实时因子,同时支持六种不同的客家方言。这是通过使用方言特定数据训练模型来实现的,从而可以生成具有说话人意识的客家语语音。为了解决公开可用的客家语语音语料库稀缺的问题,我们采用了一种经济高效的方法,利用网络抓取管道和基于自动语音识别 (ASR) 的数据清理技术。此过程确保获取了高质量、多说话人、多方言数据集,适用于 TTS 训练。使用比较平均意见得分 (CMOS) 进行的主观听力测试表明,VoxHakka 在发音准确性、音调正确性和整体自然度方面明显优于现有的公开可用的客家语 TTS 系统。这项工作代表了客家语技术的一个重大进步,并为语言保护和复兴工作提供了宝贵的资源。