摘要
arXiv:2504.21635v1 交叉公告类型:跨领域
摘要:阿拉伯语标音仍然是自然语言处理中的一个持久性挑战,由于语言的形态丰富性。在本文中,我们介绍了Sadeed,一种基于从Kuwait 1.5B Hennara等人[2025]改编而来的仅解码器语言模型的新型方法。这是一个紧凑型模型,最初是在多样化的阿拉伯语语料库上进行训练的。Sadeed在精心策划和高质量的标音数据集上进行了微调,这些数据集是通过严格的清洗和规范化管道构建的。尽管使用了有限的计算资源,但Sadeed在与专有大型语言模型相比时仍能达到竞争力的结果,并且在相似领域的传统模型上表现更佳。此外,我们还强调了当前阿拉伯语标音基准测试实践中的关键限制。为了解决这些问题,我们引入了SadeedDiac-25,这是一种新的基准测试,旨在促进跨不同文体和复杂程度的更公平和更全面的评估。Sadeed和SadeedDiac-25共同为推进阿拉伯语自然语言处理应用程序,包括机器翻译、文本转语音和语言学习工具,提供了强大的基础。