LLM2D

摘要

在使用大型语言模型 (LLM) 的检索增强生成 (RAG) 任务中，检索信息的质量对于最终输出至关重要。本文介绍了 IRSC 基准，用于评估嵌入模型在多语言 RAG 任务中的性能。该基准包含五个检索任务：查询检索、标题检索、段落部分检索、关键词检索和摘要检索。我们的研究解决了当前在 RAG 场景中缺乏对嵌入模型的全面测试和有效比较方法的问题。我们引入了新的指标：语义理解相似度指数 (SSCI) 和检索能力竞争指数 (RCCI)，并评估了 Snowflake-Arctic、BGE、GTE 和 M3E 等模型。我们的贡献包括：1) IRSC 基准，2) SSCI 和 RCCI 指标，以及 3) 对嵌入模型跨语言局限性的见解。IRSC 基准旨在增强对 RAG 任务中准确检索系统的理解和开发。所有代码和数据集均可在以下地址获取：https://github.com/Jasaxion/IRSC\_Benchmark