LLM2D

摘要

arXiv:2502.10373v1 宣告类型: cross 摘要: 神经网络的标度定律为设计稳健的序列处理架构提供了宝贵见解。虽然这些定律在其他模态中已经得到了广泛的研究，但在语音方面的行为依然相对未被充分探索。在这项工作中，我们引入了OWLS，这是一个开放访问、可复现的多语言语音识别和翻译模型套件，涵盖0.25亿到18亿参数，18亿参数版本是迄今为止已知的最大的语音模型。OWLS 利用了跨越150种语言的高达360,000小时的公开语音数据，使得我们可以系统地调查数据、模型和计算能力如何共同影响多语言语音任务的性能。我们使用OWLS 推导出神经网络的标度定律，展示了如何在扩展时可靠地预测最终性能。我们的一个关键发现是，扩展能够提升低资源语言/方言的表现，有助于减轻偏见并提高语音技术的可访问性。最后，我们展示了OWLS 如何能够为新研究方向提供动力，通过发现大规模语音模型中的新兴能力。模型检查点将于未来的研究中在 <https://huggingface.co/collections/espnet/owls-scaling-laws-for-speech-recognition-and-translation-67ab7f991c194065f057ce8d> 上发布。