LLM2D
偏好泄露:LLM 作为法官时的一种污染问题
Preference Leakage: A Contamination Problem in LLM-as-a-judge
作者: Dawei Li, Renliang Sun, Yue Huang, Ming Zhong, Bohan Jiang, Jiawei Han, Xiangliang Zhang, Wei Wang, Huan Liu
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01534v1

摘要

arXiv:2502.01534v1 宣告类型:交叉 摘要:作为评委的大型语言模型(LLMs)和基于LLM的数据合成已经成为了两种重要的LLM驱动的数据标注方法,用于模型开发。尽管它们的结合显著提高了模型训练和评估的效率,但这种新的模型开发范式所带来的潜在污染却很少受到关注。在本文中,我们揭示了由数据生成器LLM与基于LLM的评委之间的相关性引起的作为评委的LLM中的偏好泄漏问题。为了研究这一问题,我们首先定义了数据生成器LLM和评委LLM之间的三种常见相关性:是同一个模型、具有继承关系以及属于同一模型家族。通过广泛的实验,我们实证地确认了偏好泄漏导致的评委偏向其相关的学生模型的问题,在多个LLM基线和基准中都得到了验证。进一步的分析表明,偏好泄漏是一个普遍存在但更难检测的问题,与以前在作为评委的LLM场景中识别出的偏差相比更为隐蔽。所有这些发现都暗示,偏好泄漏在作为评委的LLM领域是一个广泛且具有挑战性的问题。我们已在以下链接发布了所有代码和数据:https://github.com/David-Li0406/Preference-Leakage。