LLM2D

摘要

本文介绍了华为翻译中心 (HW-TSC) 提交给 WMT24 印度语机器翻译 (MT) 共享任务的成果。为了开发可靠的低资源印度语机器翻译系统，我们采用了两种不同的知识迁移策略，考虑了语言脚本的特性以及印度语现有开源模型的支持。对于阿萨姆语 (as) 和曼尼普尔语 (mn)，我们微调了现有的 IndicTrans2 开源模型，以实现英语与这些语言之间的双向翻译。对于卡西语 (kh) 和米佐语 (mz)，我们使用这四种语言对的双语数据，以及大约 8kw 的英语-孟加拉语双语数据，训练了一个多语言模型作为基线，这些语言对都具有一些语言特征。然后，我们进行了微调，以实现英语与卡西语之间的双向翻译，以及英语与米佐语之间的双向翻译。我们的迁移学习实验取得了令人印象深刻的结果：在各自的测试集上，en-as 为 23.5 BLEU，en-mn 为 31.8 BLEU，as-en 为 36.2 BLEU，mn-en 为 47.9 BLEU。同样，多语言模型迁移学习实验也取得了令人印象深刻的结果，在各自的测试集上，en-kh 为 19.7 BLEU，en-mz 为 32.8 BLEU，kh-en 为 16.1 BLEU，mz-en 为 33.9 BLEU。这些结果不仅突出了迁移学习技术在低资源语言中的有效性，而且有助于提高低资源印度语的机器翻译能力。