LLM2D
公正还是偏见?量化法官式大语言模型中的偏差
Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge
作者: Jiayi Ye, Yanbo Wang, Yue Huang, Dongping Chen, Qihui Zhang, Nuno Moniz, Tian Gao, Werner Geyer, Chao Huang, Pin-Yu Chen, Nitesh V Chawla, Xiangliang Zhang
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.02736v1

摘要

大型语言模型 (LLM) 作为评判者已广泛应用于各种基准测试的评估方法中,并作为模型训练中的监督奖励。然而,尽管它们在许多领域表现出色,但其潜在问题却未得到充分探索,这削弱了它们的可靠性和适用范围。因此,我们确定了 12 种关键的潜在偏差,并提出了一种新的自动化偏差量化框架——CALM,该框架通过使用自动化的、以原则为指导的修改来系统地量化和分析 LLM 作为评判者中的每种偏差类型。我们的实验涵盖了多个流行的语言模型,结果表明,虽然先进的模型在整体性能上取得了可喜的成绩,但在某些特定任务中仍然存在显著的偏差。实证结果表明,LLM 作为评判者的可靠性还有提升空间。此外,我们还讨论了这些偏差的显性和隐性影响,并对 LLM 作为评判者的可靠应用提出了一些建议。我们的工作强调了利益相关者需要解决这些问题,并提醒用户在 LLM 作为评判者的应用中谨慎行事。