摘要
由于文本到语音模型的可用性,合成数据被广泛用于语音识别,这有助于将模型适应以前未见过的文本领域。然而,现有的方法在用合成数据微调自动语音识别 (ASR) 模型时性能下降,因为它们受到通常称为合成到真实差距的分布偏移的影响。本文发现任务向量算术可以有效地减轻这种差距。我们提出的方法,SYN2REAL 任务向量,在 SLURP 数据集上相对于基线方法显示出平均 10.03% 的词错误率改进。此外,我们表明,当我们有多个不同领域的真实语音时,SYN2REAL 任务向量的平均值可以进一步适应原始 ASR 模型,使其在目标文本领域表现更好。