摘要
本研究提出一个全面的印尼语文本转语音 (TTS) 数据集和一个新的 TTS 模型 EnGen-TTS,旨在提高印尼语合成语音的质量和多功能性。该数据集包含约 55.0 小时和 52,000 个音频记录,整合了多种文本来源,确保语言丰富性。细致的录音设置利用专业设备捕捉印尼语语音的细微差别,确保高保真音频样本。统计分析揭示了数据集的规模和多样性,为模型训练和评估奠定了基础。提出的 EnGen-TTS 模型的表现优于已有的基线,平均意见得分 (MOS) 达到了 4.45 ± 0.13。此外,我们对实时因素和模型规模的调查表明,EnGen-TTS 是一个引人注目的选择,具有高效的性能。本研究标志着印尼语 TTS 技术的重大进步,对各种语言应用具有重要意义。生成样本链接:\url{https://bahasa-harmony-comp.vercel.app/}