摘要
arXiv:2410.13716v2 通知类型: 替换-交叉
摘要:传统的检索增强生成(RAG)基准使用基于启发式的度量标准来评估系统,但这些度量标准需要人工偏好的真实值作为参考。相比之下,在系统彼此竞争的赛制基准中,需要一个昂贵的大语言模型(LLM)作为可靠的评估裁判。我们提出了一种简单高效的技术,以结合两者的优点。想法是使用启发式度量标准作为输入来训练一个代理裁判,输出LLM作为裁判预测。在我们的工作中,我们开发了MIRAGE-Bench,这是一个针对维基百科18种不同语言的合成赛制基准,专注于多语言答案生成评估。它广泛结合了启发式特征和LLM作为评估裁判。我们对19种多语言LLM进行了基准测试,并观察到使用我们的代理裁判和使用Bradley-Terry框架作为教师的GPT-4o之间具有高度相关性(Kendall Tau($\tau$) = 0.909)。我们的结果显示,当前专有和大型开源LLM在MIRAGE-Bench上占主导地位。我们的代码和数据集在此处公开:https://github.com/vectara/mirage-bench。