摘要
近年来,去噪扩散概率模型(DDPMs)在各种生成任务中取得了领先的性能。然而,在语音合成领域,尽管 DDPMs 表现出色,但其漫长的训练时间和高昂的推理成本阻碍了实际部署。现有的方法主要集中于提高推理速度,而加速训练的方法(训练成本是添加或定制语音的关键因素)通常需要对模型进行复杂的修改,从而影响其通用性。为了解决上述挑战,我们提出了一个问题:是否可以通过修改语音信号本身来提高 DDPMs 的训练/推理速度和性能?在本文中,我们通过简单地将生成目标重定向到小波域,将语音 DDPMs 的训练和推理速度提高了一倍。该方法不仅在语音合成任务中实现了与原始模型相当或更优的性能,而且还展示了其多功能性。通过研究和利用不同的 小波基,我们的方法证明不仅在语音合成中有效,而且在语音增强中也有效。