LLM2D
客语之声:面向台湾客语的多语者文本转语音系统
VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka
作者: Li-Wei Chen, Hung-Shin Lee, Chen-Chi Chang
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2409.01548v3

摘要

本文介绍了 VoxHakka,一个针对台湾客家语(一种在台湾使用人数极少的语言)的文本转语音(TTS)系统。VoxHakka 利用 YourTTS 框架,在语音合成中实现了高自然度和准确度以及低实时因子,同时支持六种不同的客家方言。这是通过使用方言特定数据训练模型来实现的,从而能够生成具有说话人意识的客家语音。为了解决公开可用的客家语音语料库的稀缺问题,我们采用了一种经济高效的方法,利用网络抓取管道结合自动语音识别(ASR)数据清洗技术。这一过程确保了获取高质量、多说话人、多方言的数据集,适用于 TTS 训练。使用比较平均意见得分 (CMOS) 进行的主观听力测试表明,VoxHakka 在发音准确性、音调正确性和整体自然度方面显著优于现有的公开可用的客家语 TTS 系统。这项工作代表了客家语技术的一项重大进步,并为语言保护和复兴工作提供了宝贵的资源。