摘要
arXiv:2504.08470v1 Announce Type: cross
摘要:近年来,作为生成模型训练的神经语音编解码器(NSC)在低比特率下表现出比传统编解码器更优秀的性能。尽管大多数最先进的NSC都是作为生成对抗网络(GANs)训练的,但最近一类生成模型扩散模型(DMs)由于其在图像生成方面超越GANs的优越性能,代表了一个有前景的替代方案。因此,DMs已经在各种其他音频生成应用中成功应用于音频和语音编码。然而,基于扩散的NSC的设计尚未以系统的方式进行探索。我们通过提供基于扩散模型DM的条件和输出域的综合分析来解决这个问题,共分为三个方面。首先,我们提出了一种分类方法,基于DM的条件和输出域。这个简单的概念框架允许我们定义基于扩散的NSC的设计空间,并将文献中现有的方法归类到相应的类别中。其次,我们系统地研究了尚未探索的设计,通过概念框架创建并评估了新的基于扩散的NSC。最后,我们通过客观指标和主观听感测试将提出的模型与现有的GAN和DM基线进行比较。