LLM2D
OWLS:多语言语音识别和翻译模型的标度法则
OWLS: Scaling Laws for Multilingual Speech Recognition and Translation Models
作者: William Chen, Jinchuan Tian, Yifan Peng, Brian Yan, Chao-Han Huck Yang, Shinji Watanabe
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.10373v1

摘要

arXiv:2502.10373v1 宣告类型: cross 摘要: 神经网络的标度定律为设计稳健的序列处理架构提供了宝贵见解。虽然这些定律在其他模态中已经得到了广泛的研究,但在语音方面的行为依然相对未被充分探索。在这项工作中,我们引入了OWLS,这是一个开放访问、可复现的多语言语音识别和翻译模型套件,涵盖0.25亿到18亿参数,18亿参数版本是迄今为止已知的最大的语音模型。OWLS 利用了跨越150种语言的高达360,000小时的公开语音数据,使得我们可以系统地调查数据、模型和计算能力如何共同影响多语言语音任务的性能。我们使用OWLS 推导出神经网络的标度定律,展示了如何在扩展时可靠地预测最终性能。我们的一个关键发现是,扩展能够提升低资源语言/方言的表现,有助于减轻偏见并提高语音技术的可访问性。最后,我们展示了OWLS 如何能够为新研究方向提供动力,通过发现大规模语音模型中的新兴能力。模型检查点将于未来的研究中在 <https://huggingface.co/collections/espnet/owls-scaling-laws-for-speech-recognition-and-translation-67ab7f991c194065f057ce8d> 上发布。