LLM2D

摘要

arXiv:2502.17163v3 通知类型: replace-cross 摘要：自动评估检索增强生成（RAG）系统依赖于专家人工注释者评估的细腻维度，如忠实度和相关性。元评价基准支持开发与人类判断高度关联的自动评估器。然而，现有的基准大多集中在英语上或使用翻译数据，这未能捕捉到文化差异。本土方法更好地代表了最终用户的经验。在这项工作中，我们开发了一个多语言端到端元评价RAG基准（MEMERAG）。我们的基准是在流行的MIRACL数据集的基础上建立的，使用了原生语言的问题并利用了多种大型语言模型（LLMs）生成响应，然后由专家注释者从忠实度和相关性方面进行评估。我们描述了我们的注释过程，并展示其达到了较高的注释者间一致程度。然后，我们分析了根据人类评价者的表现，LLMs在不同语言上的性能。最后，我们将数据集应用于我们的主要用例，即用于基准测试多语言自动评估器（LLM-as-a-judge）。我们展示了我们的基准能够可靠地识别由高级提示技术提供的改进。我们的数据集可在 https://github.com/amazon-science/MEMERAG 获得。