LLM2D
AMNet:一种增强 Mandarin 语音合成的声学模型网络
AMNet: An Acoustic Model Network for Enhanced Mandarin Speech Synthesis
作者: Yubing Cao, Yinfeng Yu, Yongming Li, Liejun Wang
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09225v1

摘要

arXiv:2504.09225v1 类型:交叉 摘要:本文介绍了AMNet,这是一种旨在通过结合短语结构注释和局部卷积模块来提高普通话语音合成性能的声学模型网络。AMNet 基于 FastSpeech 2 架构,同时解决了局部上下文建模的挑战,这对于捕捉复杂的语音特征(如停顿、重音和语调)至关重要。通过将短语结构解析器嵌入模型中,并引入局部卷积模块,AMNet 提高了模型对局部信息的敏感度。此外,AMNet 将声调特征与音素分离,为声调建模提供了明确的指导,从而提高了声调的精度和发音质量。实验结果表明,在主观和客观评估中,AMNet 的性能优于基础模型。所提出的模型在平均意见评分 (MOS)、较低的梅尔频谱失真 (MCD) 以及改进的基频拟合 \(F0 (R^2)\) 方面表现优异,证实了其生成高质量、自然且富有表现力的普通话语音的能力。