LLM2D
基于RNN-转导的在噪声音素目标上的语音识别损失函数
RNN-Transducer-based Losses for Speech Recognition on Noisy Targets
作者: Vladimir Bataev
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2504.06963v1

摘要

arXiv:2504.06963v1 交叉类型: 摘要:在工业管道中,训练语音识别系统时使用噪声转录文本是一个重大挑战,因为数据集非常庞大,确保每个实例的准确转录是困难的。在这项工作中,我们引入了新颖的损失函数,以减轻 RNN-Transducer 模型中转录错误的影响。我们的 Star-Transducer 损失通过在损失网络中引入“跳过帧”转换来解决删除错误,与使用准确转录文本训练的模型相比,恢复了超过 90% 的系统性能。Bypass-Transducer 损失使用“跳过标记”转换来应对插入错误,恢复了超过 60% 的质量。最后,Target-Robust Transducer 损失结合了这些方法,提供了对任意错误的稳健性能。实验结果表明,Target-Robust Transducer 损失在嘈杂数据上显著提升了 RNN-T 的性能,与准确转录的数据相比,恢复了超过 70% 的质量。