LLM2D

摘要

arXiv:2504.21635v1 交叉公告类型：跨领域摘要：阿拉伯语标音仍然是自然语言处理中的一个持久性挑战，由于语言的形态丰富性。在本文中，我们介绍了Sadeed，一种基于从Kuwait 1.5B Hennara等人[2025]改编而来的仅解码器语言模型的新型方法。这是一个紧凑型模型，最初是在多样化的阿拉伯语语料库上进行训练的。Sadeed在精心策划和高质量的标音数据集上进行了微调，这些数据集是通过严格的清洗和规范化管道构建的。尽管使用了有限的计算资源，但Sadeed在与专有大型语言模型相比时仍能达到竞争力的结果，并且在相似领域的传统模型上表现更佳。此外，我们还强调了当前阿拉伯语标音基准测试实践中的关键限制。为了解决这些问题，我们引入了SadeedDiac-25，这是一种新的基准测试，旨在促进跨不同文体和复杂程度的更公平和更全面的评估。Sadeed和SadeedDiac-25共同为推进阿拉伯语自然语言处理应用程序，包括机器翻译、文本转语音和语言学习工具，提供了强大的基础。