摘要
本文介绍了 VoxHakka,一个针对台湾客家语(一种在台湾使用人数极少的语言)的文本转语音(TTS)系统。VoxHakka 利用 YourTTS 框架,在语音合成中实现了高自然度和准确度以及低实时因子,同时支持六种不同的客家方言。这是通过使用方言特定数据训练模型来实现的,从而能够生成具有说话人意识的客家语音。为了解决公开可用的客家语音语料库的稀缺问题,我们采用了一种经济高效的方法,利用网络抓取管道结合自动语音识别(ASR)数据清洗技术。这一过程确保了获取高质量、多说话人、多方言的数据集,适用于 TTS 训练。使用比较平均意见得分 (CMOS) 进行的主观听力测试表明,VoxHakka 在发音准确性、音调正确性和整体自然度方面显著优于现有的公开可用的客家语 TTS 系统。这项工作代表了客家语技术的一项重大进步,并为语言保护和复兴工作提供了宝贵的资源。