LLM2D
大规模多语言文本嵌入基准
MMTEB: Massive Multilingual Text Embedding Benchmark
作者: Kenneth Enevoldsen, Isaac Chung, Imene Kerboua, M\'arton Kardos, Ashwin Mathur, David Stap, Jay Gala, Wissam Siblini, Dominik Krzemi\'nski, Genta Indra Winata, Saba Sturua, Saiteja Utpala, Mathieu Ciancone, Marion Schaeffer, Gabriel Sequeira, Diganta Misra, Shreeya Dhakal, Jonathan Rystr{\o}m, Roman Solomatin, \"Omer \c{C}a\u{g}atan, Akash Kundu, Martin Bernstorff, Shitao Xiao, Akshita Sukhlecha, Bhavish Pahwa, Rafa{\l} Po\'swiata, Kranthi Kiran GV, Shawon Ashraf, Daniel Auras, Bj\"orn Pl\"uster, Jan Philipp Harries, Lo\"ic Magne, Isabelle Mohr, Mariya Hendriksen, Dawei Zhu, Hippolyte Gisserot-Boukhlef, Tom Aarsen, Jan Kostkan, Konrad Wojtasik, Taemin Lee, Marek \v{S}uppa, Crystina Zhang, Roberta Rocca, Mohammed Hamdy, Andrianos Michail, John Yang, Manuel Faysse, Aleksei Vatolin, Nandan Thakur, Manan Dey, Dipam Vasani, Pranjal Chitale, Simone Tedeschi, Nguyen Tai, Artem Snegirev, Michael G\"unther, Mengzhou Xia, Weijia Shi, Xing Han L\`u, Jordan Clive, Gayatri Krishnakumar, Anna Maksimova, Silvan Wehrli, Maria Tikhonova, Henil Panchal, Aleksandr Abramov, Malte Ostendorff, Zheng Liu, Simon Clematide, Lester James Miranda, Alena Fenogenova, Guangyu Song, Ruqiya Bin Safi, Wen-Ding Li, Alessia Borghini, Federico Cassano, Hongjin Su, Jimmy Lin, Howard Yen, Lasse Hansen, Sara Hooker, Chenghao Xiao, Vaibhav Adlakha, Orion Weller, Siva Reddy, Niklas Muennighoff
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13595v1

摘要

arXiv:2502.13595v1 类别: cross 摘要: 文本嵌入通常仅在有限的任务集上进行评估,这些任务受语言、领域和任务多样性的限制。为了解决这些问题并提供更全面的评估,我们引入了大规模多语言文本嵌入基准(MMTEB)——一个社区驱动的MTEB的大规模扩展,涵盖了超过500个质量控制的评估任务,涉及250多种语言。MMTEB包括一系列具有挑战性的、新颖的任务,如指令跟踪、长文档检索和代码检索,代表了迄今为止嵌入模型评估任务的最大多语言集合。利用这个集合,我们制定了几个高度多语言的基准,用于评估代表性模型。我们发现,尽管拥有数十亿参数的大型语言模型(LLMs)可以在某些语言子集和任务类别上达到最先进的性能,但公开可用的最佳性能模型却是只有5.6亿参数的多语言-e5-large-instruct。为了提高可访问性和降低计算成本,我们引入了一种基于任务间相关性的新颖下采样方法,确保多样性的选择同时保持相对模型排名。此外,我们通过采样困难的负样本优化了检索等任务,创建了更小但也有效的分割。这些优化使我们能够引入大大降低计算需求的基准。例如,我们新引入的零样本英语基准在排名顺序上与全规模版本相似,但计算成本仅为后者的几分之一。