LLM2D

摘要

arXiv:2503.19092v1 类型: cross 摘要：大规模语言模型（LLMs）在信息检索（IR）中越来越不可或缺，它们在排名、评估和人工智能辅助内容创作中发挥作用。这种广泛的应用要求我们对这些基于LLM的组件之间的互动可能导致的潜在偏差进行关键性的审视。本文综合了现有的研究，并提出了新的实验设计，探索基于LLM的排名器和助手如何影响基于LLM的评判者。我们提供了基于LLM的评判者对基于LLM的排名器表现出显著偏好的首次实证证据。此外，我们观察到基于LLM的评判者辨别系统性能细微差异的能力存在限制。与一些先前的研究发现相反，我们的初步研究并未发现对AI生成内容存在偏见的证据。这些结果强调了对LLM驱动的信息生态系统进行全面审视的必要性。为此，我们提出了初步的指导原则和研究议程，以确保LLM在IR评估中的可靠使用。