摘要
本文介绍了华为翻译中心 (HW-TSC) 提交给 WMT24 印度语机器翻译 (MT) 共享任务的成果。为了开发可靠的低资源印度语机器翻译系统,我们采用了两种不同的知识迁移策略,考虑了语言脚本的特性以及印度语现有开源模型的支持。对于阿萨姆语 (as) 和曼尼普尔语 (mn),我们微调了现有的 IndicTrans2 开源模型,以实现英语与这些语言之间的双向翻译。对于卡西语 (kh) 和米佐语 (mz),我们使用这四种语言对的双语数据,以及大约 8kw 的英语-孟加拉语双语数据,训练了一个多语言模型作为基线,这些语言对都具有一些语言特征。然后,我们进行了微调,以实现英语与卡西语之间的双向翻译,以及英语与米佐语之间的双向翻译。我们的迁移学习实验取得了令人印象深刻的结果:在各自的测试集上,en-as 为 23.5 BLEU,en-mn 为 31.8 BLEU,as-en 为 36.2 BLEU,mn-en 为 47.9 BLEU。同样,多语言模型迁移学习实验也取得了令人印象深刻的结果,在各自的测试集上,en-kh 为 19.7 BLEU,en-mz 为 32.8 BLEU,kh-en 为 16.1 BLEU,mz-en 为 33.9 BLEU。这些结果不仅突出了迁移学习技术在低资源语言中的有效性,而且有助于提高低资源印度语的机器翻译能力。