LLM2D

摘要

本文提出了一种新颖的分阶段先验感知神经语音相位预测 (SP-NSPP) 模型，该模型通过两阶段神经网络从输入幅度谱预测相位谱。在初始先验构建阶段，我们初步从幅度谱预测粗略的先验相位谱。随后的细化阶段将幅度谱转换为以先验相位为条件的细化高质量相位谱。两个阶段的网络都使用 ConvNeXt v2 模块作为主干，并通过创新地引入相位谱鉴别器 (PSD) 来采用对抗性训练。为了进一步提高细化相位的连续性，我们还在细化阶段加入了时频一体化差异 (TFID) 损失。实验结果证实，与基于神经网络的无先验相位预测方法相比，所提出的 SP-NSPP 由于引入了粗略相位先验和多样化的训练标准，因此实现了更高的相位预测精度。与迭代相位估计算法相比，我们提出的 SP-NSPP 不需要多轮分阶段迭代，从而提高了生成效率。