LLM2D

摘要

arXiv:2504.12254v1 宣布类型: 新论文摘要：自动语音识别（ASR）在各种应用中对于人机交互至关重要，比如对话代理、工业机器人、呼叫中心自动化以及自动字幕生成。然而，开发高性能的ASR模型仍然充满挑战，特别是对于资源有限的语言（如阿拉伯语），这是因为缺乏大量的、标注的语音数据集，这些数据集的生产和标注成本高昂且耗时。在本文中，我们采用弱监督学习，利用Conformer架构训练了一个阿拉伯语ASR模型。我们的模型从15,000小时的弱标注语音数据中训练而来，这些数据覆盖了现代标准阿拉伯语（MSA）和方言阿拉伯语（DA），从而消除了对昂贵的手动标注的需要。尽管缺乏人工验证的标签，但我们的方法在标准基准测试上达到了目前最先进的（SOTA）性能，超越了阿拉伯语ASR领域的所有先前努力。通过展示弱监督作为传统监督方法的可扩展且成本效益高的替代方案的有效性，为我们提供了通往改善低资源环境下的ASR系统的道路。