LLM2D

摘要

arXiv:2502.13595v1 类别: cross 摘要: 文本嵌入通常仅在有限的任务集上进行评估，这些任务受语言、领域和任务多样性的限制。为了解决这些问题并提供更全面的评估，我们引入了大规模多语言文本嵌入基准（MMTEB）——一个社区驱动的MTEB的大规模扩展，涵盖了超过500个质量控制的评估任务，涉及250多种语言。MMTEB包括一系列具有挑战性的、新颖的任务，如指令跟踪、长文档检索和代码检索，代表了迄今为止嵌入模型评估任务的最大多语言集合。利用这个集合，我们制定了几个高度多语言的基准，用于评估代表性模型。我们发现，尽管拥有数十亿参数的大型语言模型（LLMs）可以在某些语言子集和任务类别上达到最先进的性能，但公开可用的最佳性能模型却是只有5.6亿参数的多语言-e5-large-instruct。为了提高可访问性和降低计算成本，我们引入了一种基于任务间相关性的新颖下采样方法，确保多样性的选择同时保持相对模型排名。此外，我们通过采样困难的负样本优化了检索等任务，创建了更小但也有效的分割。这些优化使我们能够引入大大降低计算需求的基准。例如，我们新引入的零样本英语基准在排名顺序上与全规模版本相似，但计算成本仅为后者的几分之一。