LLM2D

摘要

arXiv:2503.21530v2 更新类型: replace-cross 摘要: 随着信息检索（IR）领域越来越认识到包容性的重要性，满足低资源语言的需求仍是一个重大挑战。尽管印度次大陆广泛使用乌尔都语和罗马化乌尔都语这两种文稿，但它们之间的转写研究仍未得到充分的探索。先前使用RNN（循环神经网络）在Roman-Urdu-Parl数据集上的工作展示了令人鼓舞的结果，但受到了领域适应性差和评估有限的限制。我们提出了一种基于变换器的方法，使用m2m100多语言翻译模型，并结合掩码语言模型（MLM）预训练和在Roman-Urdu-Parl数据集和领域多样化的Dakshina数据集上的微调。为了解决之前评估中的缺陷，我们引入了严格的数据集划分，并使用BLEU、字符级BLEU和CHRF来评估性能。我们的模型在转写性能上表现出色，字符级BLEU得分分别为96.37（乌尔都语->罗马化乌尔都语）和97.44（罗马化乌尔都语->乌尔都语）。这些结果优于RNN基线和GPT-4o Mini，并证明了多语言迁移学习在低资源转写任务中的有效性。