摘要
虽然自动语音识别 (ASR) 系统在大规模数据集上取得了显著的性能,但在低资源环境下(包括方言、口音、少数民族语言和长尾热词等具有重要实际意义的领域)其效能仍然不足。随着能够生成具有逼真度、表现力和多样化说话人特征的、堪比人类水平语音的通用强大文本转语音 (TTS) 模型的出现,利用 TTS 进行 ASR 数据增强提供了一种经济有效且实用的方法来提高 ASR 性能。在种类空前丰富的低资源数据集上进行的综合实验表明,性能得到了持续而显著的提升,证明了所提出的通过通用 TTS 模型增强低资源 ASR 的方法非常有效,并具有广泛的应用前景。此外,我们深入研究了合成语音数据中促使 ASR 性能提升的关键特征,考察了文本多样性、说话人多样性和合成数据量等因素,其中文本多样性在本研究中首次被研究。我们希望我们的研究结果能够为基于 TTS 的数据增强的实际应用提供有益的指导和参考,并将低资源 ASR 的发展向前推进一步。