LLM2D

摘要

arXiv:2409.12386v1 公告类型: 交叉摘要: 尽管预训练的自动语音识别(ASR)系统在匹配的领域中表现出令人印象深刻的性能,但当面对由未见过的录音环境和条件引起的通道不匹配时,其性能往往会下降。为了缓解这一问题,我们提出了一种新的通道感知数据模拟方法,用于鲁棒ASR训练。我们的方法利用了通道提取技术和生成对抗网络(GANs)的协同作用。我们首先训练一个能够从任意音频中提取嵌入的通道编码器。在此基础上,使用少量目标域数据提取通道嵌入,并用于指导基于GAN的语音合成器。该合成器生成的语音忠实地保留了输入的音素内容,同时模仿了目标域的通道特性。我们在具有挑战性的跨台湾客家语(HAT)和跨台湾台语(TAT)语料库上评估了我们的方法,与基线相比,分别实现了相对字符错误率(CER)降低了20.02%和9.64%。这些结果突显了我们的通道感知数据模拟方法在弥合源域和目标域声学差异方面的有效性。