LLM2D

摘要

arXiv:2503.21530v1 Announce Type: cross 摘要：随着信息检索（IR）领域越来越认识到包容性的重要性，满足低资源语言的需求仍然是一项重大挑战。尽管南亚地区广泛使用乌尔都文和罗马化乌尔都文这两种书写系统，但它们之间的转写研究仍然相对不足。对罗马-乌尔都-帕尔数据集使用RNN进行的研究虽然显示出良好的结果，但其域适应能力和评估有限。我们提出了一种基于变换器的方法，使用了m2m100多语言翻译模型，并结合了掩码语言建模（MLM）预训练和在罗马-乌尔都-帕尔数据集和领域多样化的Dakshina数据集上的微调。为了解决之前评估的不足，我们引入了严格的分数据集，并使用BLEU、字符级BLEU和CHRF评估性能。我们的模型在乌尔都->罗马化乌尔都和罗马化乌尔都->乌尔都的转写性能上表现出色，Char-BLEU得分分别为96.37和97.44。这些结果优于RNN基线和GPT-4o Mini，并证明了多语言迁移学习在低资源转写任务中的有效性。