摘要
arXiv:2502.13595v2 宣告类型: 替换-交叉
摘要:文本嵌入通常是在有限的任务集上进行评估,这些任务受到语言、领域和任务多样性的限制。为了解决这些限制并提供更全面的评估,我们提出了大规模多语言文本嵌入基准(MMTEB)——它是MTEB的社区驱动扩展,涵盖了超过250种语言中的500多个质量控制评估任务。MMTEB包括一系列具有挑战性和新颖性的任务,例如指令遵循、长文档检索和代码检索,代表了迄今为止最大的多语言评估任务集合。使用这个集合,我们开发了几种高度多语言的基准,用于评估代表性模型。我们发现,虽然具有数十亿参数的大语言模型(LLMs)在某些语言子集和任务类别中可以达到最佳性能,但公开可用的最佳性能模型是只有5.6亿参数的multilingual-e5-large-instruct。为了提高可访问性和减少计算成本,我们提出了一种基于任务间相关性的新颖下采样方法,确保多样选择的同时保留相对模型排名。此外,我们通过从难负值得样来优化检索任务,创建了更小但有效的分割。这些优化使得我们能够引入大幅减少计算需求的基准。例如,我们新引入的零样本英语基准在性能排名上与全规模版本类似,但计算成本仅为后者的几分之一。