摘要
我们引入了整体性能指标(OPI),这是一种内在指标,用于评估用于涉及深度逻辑查询的应用程序的检索增强生成(RAG)机制。OPI 计算为两个关键指标的调和平均值:逻辑关系正确率和地面真实答案与生成答案之间的 BERT 嵌入相似度分数的平均值。我们使用来自 Hugging Face 的 RAG-Dataset-12000 上从 GPT-4o 微调的逻辑关系分类器,将 OPI 应用于评估 LangChain(一种流行的 RAG 工具)的性能。我们的研究结果表明 BERT 嵌入相似度分数与外部评估分数之间存在很强的相关性。在常用的检索器中,使用基于 BERT 的嵌入的余弦相似度检索器优于其他检索器,而基于欧几里得距离的检索器表现最弱。此外,我们证明,将多个检索器组合在一起,无论是通过算法还是通过合并检索到的句子,都比单独使用任何一个检索器获得更好的性能。