摘要
在使用大型语言模型 (LLM) 的检索增强生成 (RAG) 任务中,检索信息的质量对于最终输出至关重要。本文介绍了 IRSC 基准,用于评估嵌入模型在多语言 RAG 任务中的性能。该基准包含五个检索任务:查询检索、标题检索、段落部分检索、关键词检索和摘要检索。我们的研究解决了当前在 RAG 场景中缺乏对嵌入模型的全面测试和有效比较方法的问题。我们引入了新的指标:语义理解相似度指数 (SSCI) 和检索能力竞争指数 (RCCI),并评估了 Snowflake-Arctic、BGE、GTE 和 M3E 等模型。我们的贡献包括:1) IRSC 基准,2) SSCI 和 RCCI 指标,以及 3) 对嵌入模型跨语言局限性的见解。IRSC 基准旨在增强对 RAG 任务中准确检索系统的理解和开发。所有代码和数据集均可在以下地址获取:https://github.com/Jasaxion/IRSC\_Benchmark