摘要
arXiv:2412.12997v3 公布类型: replace-cross
摘要: 随着信息检索(IR)领域越来越认识到包容性的意义,满足低资源语言的需求仍是一项显著的挑战。本文介绍了首个大规模乌尔都语IR数据集,通过机器翻译将MS MARCO数据集翻译而来。我们通过零样本学习为乌尔都语IR设置了基准结果,并随后应用mMARCO多语言IR方法论对这一新翻译数据集进行了处理。我们的发现表明,微调后的模型(Urdu-mT5-mMARCO)在Mean Reciprocal Rank(MRR@10)上的表现达到了0.247,Recall@10达到了0.439,这相对于零样本结果取得了显著提高,展示了扩展乌尔都语人群信息检索接入的可能性。通过对低资源语言使用者的接入差距进行跨越,不仅推进了多语言信息检索研究,还强调了包容性IR技术的伦理和社会重要性。本文提供了关于改进语言表示所面临的挑战和解决方案的重要见解,并为进一步研究奠定了基础,尤其是在南亚语言方面,可以受益于本研究中使用的方法的适应性。