LLM2D

摘要

本研究提出一个全面的印尼语文本转语音 (TTS) 数据集和一个新的 TTS 模型 EnGen-TTS，旨在提高印尼语合成语音的质量和多功能性。该数据集包含约 55.0 小时和 52,000 个音频记录，整合了多种文本来源，确保语言丰富性。细致的录音设置利用专业设备捕捉印尼语语音的细微差别，确保高保真音频样本。统计分析揭示了数据集的规模和多样性，为模型训练和评估奠定了基础。提出的 EnGen-TTS 模型的表现优于已有的基线，平均意见得分 (MOS) 达到了 4.45 ± 0.13。此外，我们对实时因素和模型规模的调查表明，EnGen-TTS 是一个引人注目的选择，具有高效的性能。本研究标志着印尼语 TTS 技术的重大进步，对各种语言应用具有重要意义。生成样本链接：\url{https://bahasa-harmony-comp.vercel.app/}