LLM2D

摘要

arXiv:2504.15205v1 类型: cross 摘要: 从包含“真实信息”的源文档中引用信息以生成答案的能力（ Retrieval-augmented generation, RAG）使大型语言模型（LLMs）能够生成带有引文的答案，从而减少系统的幻想。在RAG评估中，“支持”是一个关键因素，即所引用的文档中的信息是否支持该答案。为此，我们对36个主题进行了大规模的比较研究，共有45个参与者提交了TREC 2024 RAG赛道的任务，将自动LLM裁判员（GPT-4o）的评估结果与人类裁判员进行了比较，以评估支持性。我们考虑了两种条件：（1）从零开始的完全手动评估，以及（2）在LLM预测后的手动评估。结果显示，在完全手动评估的情况下，人类和GPT-4o的预测匹配完美（在一个三级尺度上）的比例为56%，而在手动评估后编辑条件下，这一比例增加到72%。此外，通过仔细分析无偏见研究中的分歧，我们发现独立的人类裁判员与GPT-4o的相关性高于人类裁判员，这表明LLM裁判员可以成为支持评估的可靠替代方案。总之，我们提供了人类和GPT-4o错误的定性分析，以帮助指导未来支持评估的迭代。