LLM2D

摘要

arXiv:2502.13595v2 宣告类型: 替换-交叉摘要：文本嵌入通常是在有限的任务集上进行评估，这些任务受到语言、领域和任务多样性的限制。为了解决这些限制并提供更全面的评估，我们提出了大规模多语言文本嵌入基准（MMTEB）——它是MTEB的社区驱动扩展，涵盖了超过250种语言中的500多个质量控制评估任务。MMTEB包括一系列具有挑战性和新颖性的任务，例如指令遵循、长文档检索和代码检索，代表了迄今为止最大的多语言评估任务集合。使用这个集合，我们开发了几种高度多语言的基准，用于评估代表性模型。我们发现，虽然具有数十亿参数的大语言模型（LLMs）在某些语言子集和任务类别中可以达到最佳性能，但公开可用的最佳性能模型是只有5.6亿参数的multilingual-e5-large-instruct。为了提高可访问性和减少计算成本，我们提出了一种基于任务间相关性的新颖下采样方法，确保多样选择的同时保留相对模型排名。此外，我们通过从难负值得样来优化检索任务，创建了更小但有效的分割。这些优化使得我们能够引入大幅减少计算需求的基准。例如，我们新引入的零样本英语基准在性能排名上与全规模版本类似，但计算成本仅为后者的几分之一。