摘要
arXiv:2502.17163v3 通知类型: replace-cross
摘要:自动评估检索增强生成(RAG)系统依赖于专家人工注释者评估的细腻维度,如忠实度和相关性。元评价基准支持开发与人类判断高度关联的自动评估器。然而,现有的基准大多集中在英语上或使用翻译数据,这未能捕捉到文化差异。本土方法更好地代表了最终用户的经验。
在这项工作中,我们开发了一个多语言端到端元评价RAG基准(MEMERAG)。我们的基准是在流行的MIRACL数据集的基础上建立的,使用了原生语言的问题并利用了多种大型语言模型(LLMs)生成响应,然后由专家注释者从忠实度和相关性方面进行评估。我们描述了我们的注释过程,并展示其达到了较高的注释者间一致程度。然后,我们分析了根据人类评价者的表现,LLMs在不同语言上的性能。最后,我们将数据集应用于我们的主要用例,即用于基准测试多语言自动评估器(LLM-as-a-judge)。我们展示了我们的基准能够可靠地识别由高级提示技术提供的改进。我们的数据集可在 https://github.com/amazon-science/MEMERAG 获得。