LLM2D

摘要

arXiv:2504.08470v1 Announce Type: cross 摘要：近年来，作为生成模型训练的神经语音编解码器（NSC）在低比特率下表现出比传统编解码器更优秀的性能。尽管大多数最先进的NSC都是作为生成对抗网络（GANs）训练的，但最近一类生成模型扩散模型（DMs）由于其在图像生成方面超越GANs的优越性能，代表了一个有前景的替代方案。因此，DMs已经在各种其他音频生成应用中成功应用于音频和语音编码。然而，基于扩散的NSC的设计尚未以系统的方式进行探索。我们通过提供基于扩散模型DM的条件和输出域的综合分析来解决这个问题，共分为三个方面。首先，我们提出了一种分类方法，基于DM的条件和输出域。这个简单的概念框架允许我们定义基于扩散的NSC的设计空间，并将文献中现有的方法归类到相应的类别中。其次，我们系统地研究了尚未探索的设计，通过概念框架创建并评估了新的基于扩散的NSC。最后，我们通过客观指标和主观听感测试将提出的模型与现有的GAN和DM基线进行比较。