摘要
arXiv:2504.15205v1 类型: cross
摘要: 从包含“真实信息”的源文档中引用信息以生成答案的能力( Retrieval-augmented generation, RAG)使大型语言模型(LLMs)能够生成带有引文的答案,从而减少系统的幻想。在RAG评估中,“支持”是一个关键因素,即所引用的文档中的信息是否支持该答案。为此,我们对36个主题进行了大规模的比较研究,共有45个参与者提交了TREC 2024 RAG赛道的任务,将自动LLM裁判员(GPT-4o)的评估结果与人类裁判员进行了比较,以评估支持性。我们考虑了两种条件:(1)从零开始的完全手动评估,以及(2)在LLM预测后的手动评估。结果显示,在完全手动评估的情况下,人类和GPT-4o的预测匹配完美(在一个三级尺度上)的比例为56%,而在手动评估后编辑条件下,这一比例增加到72%。此外,通过仔细分析无偏见研究中的分歧,我们发现独立的人类裁判员与GPT-4o的相关性高于人类裁判员,这表明LLM裁判员可以成为支持评估的可靠替代方案。总之,我们提供了人类和GPT-4o错误的定性分析,以帮助指导未来支持评估的迭代。