摘要
arXiv:2504.12254v2 宣传类型: 替换
摘要:自动语音识别(ASR)在诸如对话代理、工业机器人、呼叫中心自动化和字幕自动化等多种应用中的人机交互中至关重要。然而,开发高性能的ASR模型仍然具有挑战性,特别是在阿拉伯语等低资源语言方面,因为缺乏大规模的标记语音数据集。这些数据集的成本高昂且劳动密集型。在本文中,我们采用弱监督学习来使用Conformer架构训练一个阿拉伯语ASR模型。该模型从15,000小时的弱标注语音数据中训练而来,涵盖了现代标准阿拉伯语(MSA)和方言阿拉伯语(DA),从而消除了成本高昂的人工转录的需求。尽管缺乏经过人工验证的标签,但我们的方法在阿拉伯语ASR上取得了最先进的(SOTA)结果,在标准基准测试中超越了开源和闭源模型。通过展示弱监督作为传统监督方法的可扩展且成本效益高的替代方案的有效性,从而为低资源环境中的改进ASR系统铺平了道路。