LLM2D
DPN-GAN:在生成式对抗网络中诱导周期激活以实现高保真音频合成
DPN-GAN: Inducing Periodic Activations in Generative Adversarial Networks for High-Fidelity Audio Synthesis
作者: Zeeshan Ahmad, Shudi Bao, Meng Chen
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.09091v1

摘要

arXiv:2505.09091v1 生成类型: cross 摘要:近年来,生成对抗网络(GANs)在生成音频序列方面取得了显著进展。然而,这些模型通常依赖于带宽受限的梅尔谱图,这限制了生成音频序列的分辨率,并在条件生成期间导致模式崩溃。为了解决这一问题,我们提出了一种新颖的基于拉普拉斯周期核的GAN(DPN-GAN)架构,该架构通过引入基于核的周期ReLU激活函数,以在音频生成中引入周期偏置。这一创新方法增强了模型捕捉和再现复杂音频模式的能力。特别是,我们提出的模型包含一个DPN模块,用于利用变形卷积操作的多分辨率生成,允许适应性的感受野,从而提高合成音频的质量和保真度。此外,我们还利用变形卷积增强了鉴别器网络,以便更好地区分真实样本和生成样本,进一步提高音频质量。我们训练了两个版本的模型:DPN-GAN小(38.67M参数)和DPN-GAN大(124M参数)。为了评估,我们使用了五个不同的数据集,涵盖了语音合成和音乐生成任务,以显示DPN-GAN的效率。实验结果表明,DPN-GAN在分布外和噪声数据上均显示出更优的性能,展示了其鲁棒性和适应性。跨多种数据集训练的DPN-GAN在标准评估指标上优于现有最先进的GAN架构,并在合成音频上展示出了增强的鲁棒性。