LLM2D

摘要

近年来，去噪扩散概率模型（DDPMs）在各种生成任务中取得了领先的性能。然而，在语音合成领域，尽管 DDPMs 表现出色，但其漫长的训练时间和高昂的推理成本阻碍了实际部署。现有的方法主要集中于提高推理速度，而加速训练的方法（训练成本是添加或定制语音的关键因素）通常需要对模型进行复杂的修改，从而影响其通用性。为了解决上述挑战，我们提出了一个问题：是否可以通过修改语音信号本身来提高 DDPMs 的训练/推理速度和性能？在本文中，我们通过简单地将生成目标重定向到小波域，将语音 DDPMs 的训练和推理速度提高了一倍。该方法不仅在语音合成任务中实现了与原始模型相当或更优的性能，而且还展示了其多功能性。通过研究和利用不同的小波基，我们的方法证明不仅在语音合成中有效，而且在语音增强中也有效。