LLM2D

摘要

arXiv:2410.13716v2 通知类型: 替换-交叉摘要：传统的检索增强生成（RAG）基准使用基于启发式的度量标准来评估系统，但这些度量标准需要人工偏好的真实值作为参考。相比之下，在系统彼此竞争的赛制基准中，需要一个昂贵的大语言模型（LLM）作为可靠的评估裁判。我们提出了一种简单高效的技术，以结合两者的优点。想法是使用启发式度量标准作为输入来训练一个代理裁判，输出LLM作为裁判预测。在我们的工作中，我们开发了MIRAGE-Bench，这是一个针对维基百科18种不同语言的合成赛制基准，专注于多语言答案生成评估。它广泛结合了启发式特征和LLM作为评估裁判。我们对19种多语言LLM进行了基准测试，并观察到使用我们的代理裁判和使用Bradley-Terry框架作为教师的GPT-4o之间具有高度相关性（Kendall Tau($\tau$) = 0.909）。我们的结果显示，当前专有和大型开源LLM在MIRAGE-Bench上占主导地位。我们的代码和数据集在此处公开：https://github.com/vectara/mirage-bench。