LLM2D
基于Transformer模型的罗马字母-乌尔都语及乌尔都语低资源转写研究
Low-Resource Transliteration for Roman-Urdu and Urdu Using Transformer-Based Models
作者: Umer Butt, Stalin Veranasi, G\"unter Neumann
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2503.21530v2

摘要

arXiv:2503.21530v2 更新类型: replace-cross 摘要: 随着信息检索(IR)领域越来越认识到包容性的重要性,满足低资源语言的需求仍是一个重大挑战。尽管印度次大陆广泛使用乌尔都语和罗马化乌尔都语这两种文稿,但它们之间的转写研究仍未得到充分的探索。先前使用RNN(循环神经网络)在Roman-Urdu-Parl数据集上的工作展示了令人鼓舞的结果,但受到了领域适应性差和评估有限的限制。我们提出了一种基于变换器的方法,使用m2m100多语言翻译模型,并结合掩码语言模型(MLM)预训练和在Roman-Urdu-Parl数据集和领域多样化的Dakshina数据集上的微调。为了解决之前评估中的缺陷,我们引入了严格的数据集划分,并使用BLEU、字符级BLEU和CHRF来评估性能。我们的模型在转写性能上表现出色,字符级BLEU得分分别为96.37(乌尔都语->罗马化乌尔都语)和97.44(罗马化乌尔都语->乌尔都语)。这些结果优于RNN基线和GPT-4o Mini,并证明了多语言迁移学习在低资源转写任务中的有效性。