LLM2D
排名者、评判者和助手:关于信息检索评估中大语言模型相互作用的理解
Rankers, Judges, and Assistants: Towards Understanding the Interplay of LLMs in Information Retrieval Evaluation
作者: Krisztian Balog, Donald Metzler, Zhen Qin
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19092v1

摘要

arXiv:2503.19092v1 类型: cross 摘要:大规模语言模型(LLMs)在信息检索(IR)中越来越不可或缺,它们在排名、评估和人工智能辅助内容创作中发挥作用。这种广泛的应用要求我们对这些基于LLM的组件之间的互动可能导致的潜在偏差进行关键性的审视。本文综合了现有的研究,并提出了新的实验设计,探索基于LLM的排名器和助手如何影响基于LLM的评判者。我们提供了基于LLM的评判者对基于LLM的排名器表现出显著偏好的首次实证证据。此外,我们观察到基于LLM的评判者辨别系统性能细微差异的能力存在限制。与一些先前的研究发现相反,我们的初步研究并未发现对AI生成内容存在偏见的证据。这些结果强调了对LLM驱动的信息生态系统进行全面审视的必要性。为此,我们提出了初步的指导原则和研究议程,以确保LLM在IR评估中的可靠使用。