LLM2D

摘要

arXiv:2504.09225v1 类型:交叉摘要：本文介绍了AMNet，这是一种旨在通过结合短语结构注释和局部卷积模块来提高普通话语音合成性能的声学模型网络。AMNet 基于 FastSpeech 2 架构，同时解决了局部上下文建模的挑战，这对于捕捉复杂的语音特征（如停顿、重音和语调）至关重要。通过将短语结构解析器嵌入模型中，并引入局部卷积模块，AMNet 提高了模型对局部信息的敏感度。此外，AMNet 将声调特征与音素分离，为声调建模提供了明确的指导，从而提高了声调的精度和发音质量。实验结果表明，在主观和客观评估中，AMNet 的性能优于基础模型。所提出的模型在平均意见评分 (MOS)、较低的梅尔频谱失真 (MCD) 以及改进的基频拟合 \(F0 (R^2)\) 方面表现优异，证实了其生成高质量、自然且富有表现力的普通话语音的能力。