LLM2D

摘要

arXiv:2504.06963v1 交叉类型：摘要：在工业管道中，训练语音识别系统时使用噪声转录文本是一个重大挑战，因为数据集非常庞大，确保每个实例的准确转录是困难的。在这项工作中，我们引入了新颖的损失函数，以减轻 RNN-Transducer 模型中转录错误的影响。我们的 Star-Transducer 损失通过在损失网络中引入“跳过帧”转换来解决删除错误，与使用准确转录文本训练的模型相比，恢复了超过 90% 的系统性能。Bypass-Transducer 损失使用“跳过标记”转换来应对插入错误，恢复了超过 60% 的质量。最后，Target-Robust Transducer 损失结合了这些方法，提供了对任意错误的稳健性能。实验结果表明，Target-Robust Transducer 损失在嘈杂数据上显著提升了 RNN-T 的性能，与准确转录的数据相比，恢复了超过 70% 的质量。