摘要
arXiv:2409.12745v1 公告类型: 交叉 摘要: 合成语音作为数据增强手段在自动语音识别和语音分类任务等领域中越来越受欢迎。尽管具有语音克隆能力的新型文本到语音系统允许基于短音频片段使用更多语音,但众所周知,这些系统往往会产生幻觉,并经常生成可能对下游任务产生负面影响的劣质数据。在本研究中,我们围绕合成语音数据在语音命令分类这一特定任务中的零样本学习进行了一系列实验。我们在Google语音命令数据集上的结果表明,基于ASR的简单过滤方法可以显著提高生成数据的质量,从而提升性能。此外,尽管生成的语音数据质量良好,我们仍发现使用自监督(WavLM)特征时,合成语音和真实语音仍可轻易区分,这一方面通过CycleGAN进一步探讨,以弥合两种语音材料之间的差距。