LLM2D

摘要

我们引入了整体性能指标（OPI），这是一种内在指标，用于评估用于涉及深度逻辑查询的应用程序的检索增强生成（RAG）机制。OPI 计算为两个关键指标的调和平均值：逻辑关系正确率和地面真实答案与生成答案之间的 BERT 嵌入相似度分数的平均值。我们使用来自 Hugging Face 的 RAG-Dataset-12000 上从 GPT-4o 微调的逻辑关系分类器，将 OPI 应用于评估 LangChain（一种流行的 RAG 工具）的性能。我们的研究结果表明 BERT 嵌入相似度分数与外部评估分数之间存在很强的相关性。在常用的检索器中，使用基于 BERT 的嵌入的余弦相似度检索器优于其他检索器，而基于欧几里得距离的检索器表现最弱。此外，我们证明，将多个检索器组合在一起，无论是通过算法还是通过合并检索到的句子，都比单独使用任何一个检索器获得更好的性能。