摘要
arXiv:2503.21530v1 Announce Type: cross
摘要:随着信息检索(IR)领域越来越认识到包容性的重要性,满足低资源语言的需求仍然是一项重大挑战。尽管南亚地区广泛使用乌尔都文和罗马化乌尔都文这两种书写系统,但它们之间的转写研究仍然相对不足。对罗马-乌尔都-帕尔数据集使用RNN进行的研究虽然显示出良好的结果,但其域适应能力和评估有限。我们提出了一种基于变换器的方法,使用了m2m100多语言翻译模型,并结合了掩码语言建模(MLM)预训练和在罗马-乌尔都-帕尔数据集和领域多样化的Dakshina数据集上的微调。为了解决之前评估的不足,我们引入了严格的分数据集,并使用BLEU、字符级BLEU和CHRF评估性能。我们的模型在乌尔都->罗马化乌尔都和罗马化乌尔都->乌尔都的转写性能上表现出色,Char-BLEU得分分别为96.37和97.44。这些结果优于RNN基线和GPT-4o Mini,并证明了多语言迁移学习在低资源转写任务中的有效性。