LLM2D

摘要

arXiv:2408.12503v2 Announce Type: replace-cross 摘要：嵌入模型在自然语言处理（NLP）中起到了关键作用，通过创建用于各种任务如信息检索和评估语义文本相似性的文本嵌入。本文专注于俄语嵌入模型的研究。介绍了一种新的俄语专注于嵌入模型——ru-en-RoSBERTa，以及俄语版本的ruMTEB基准，该版本扩展了大规模文本嵌入基准（MTEB）。我们的基准包括七个任务类别，如语义文本相似性、文本分类、重排序和检索。研究还评估了一组代表性俄语和多语言模型在提出的基准上的性能。研究结果表明，新模型在俄语中的表现与最新模型相当。我们发布了ru-en-RoSBERTa模型，ruMTEB框架提供了开源代码、对原框架的集成以及公共 leaderboard。