LLM2D

摘要

arXiv:2504.13791v1 生成类型: cross 摘要: 在图像合成领域取得了显著成功之后，生成对抗网络（GAN）模型也在语音合成领域取得了显著进展，通过对抗学习过程利用其适应目标数据精确分布的能力。值得注意的是，在最先进的（SOTA）GAN基语音转换（VC）模型领域，真实语音样本与GAN生成的语音样本之间的自然度存在显著差异。此外，尽管目前许多GAN模型采用单一生成器-判别器学习方法，但通过单一生成器多判别器学习方案优化目标数据分布更为有效。因此，这项研究提出了一个名为Collective Learning Mechanism-based Optimal Transport GAN（CLOT-GAN）的新GAN模型，该模型结合了多个判别器，包括深度卷积神经网络（DCNN）模型、Vision Transformer（ViT）和conformer。整合多种判别器的目的是利用集体学习机制理解梅尔频谱图中的形式元分布。同时，引入Optimal Transport（OT）损失旨在精准地弥合源数据和目标数据分布之间的差距，采用OT理论的原则。在VCC 2018、VCTK和CMU-Arctic数据集上的实验验证表明，CLOT-GAN-VC模型在客观和主观评估中均优于现有的VC模型。