LLM2D
任务算术可以减轻自动语音识别中合成到真实数据的差距
Task Arithmetic can Mitigate Synthetic-to-Real Gap in Automatic Speech Recognition
作者: Hsuan Su, Hua Farn, Fan-Yun Sun, Shang-Tse Chen, Hung-yi Lee
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2406.02925v3

摘要

由于文本到语音模型的可用性,合成数据被广泛用于语音识别,这有助于将模型适应以前未见过的文本领域。然而,现有的方法在用合成数据微调自动语音识别 (ASR) 模型时性能下降,因为它们受到通常称为合成到真实差距的分布偏移的影响。本文发现任务向量算术可以有效地减轻这种差距。我们提出的方法,SYN2REAL 任务向量,在 SLURP 数据集上相对于基线方法显示出平均 10.03% 的词错误率改进。此外,我们表明,当我们有多个不同领域的真实语音时,SYN2REAL 任务向量的平均值可以进一步适应原始 ASR 模型,使其在目标文本领域表现更好。