LLM2D

摘要

由于文本到语音模型的可用性，合成数据被广泛用于语音识别，这有助于将模型适应以前未见过的文本领域。然而，现有的方法在用合成数据微调自动语音识别 (ASR) 模型时性能下降，因为它们受到通常称为合成到真实差距的分布偏移的影响。本文发现任务向量算术可以有效地减轻这种差距。我们提出的方法，SYN2REAL 任务向量，在 SLURP 数据集上相对于基线方法显示出平均 10.03% 的词错误率改进。此外，我们表明，当我们有多个不同领域的真实语音时，SYN2REAL 任务向量的平均值可以进一步适应原始 ASR 模型，使其在目标文本领域表现更好。