LLM2D

摘要

arXiv:2412.12997v3 公布类型: replace-cross 摘要: 随着信息检索（IR）领域越来越认识到包容性的意义，满足低资源语言的需求仍是一项显著的挑战。本文介绍了首个大规模乌尔都语IR数据集，通过机器翻译将MS MARCO数据集翻译而来。我们通过零样本学习为乌尔都语IR设置了基准结果，并随后应用mMARCO多语言IR方法论对这一新翻译数据集进行了处理。我们的发现表明，微调后的模型（Urdu-mT5-mMARCO）在Mean Reciprocal Rank（MRR@10）上的表现达到了0.247，Recall@10达到了0.439，这相对于零样本结果取得了显著提高，展示了扩展乌尔都语人群信息检索接入的可能性。通过对低资源语言使用者的接入差距进行跨越，不仅推进了多语言信息检索研究，还强调了包容性IR技术的伦理和社会重要性。本文提供了关于改进语言表示所面临的挑战和解决方案的重要见解，并为进一步研究奠定了基础，尤其是在南亚语言方面，可以受益于本研究中使用的方法的适应性。