LLM2D
公正还是偏见?量化 LLM 作为法官的偏见
Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge
作者: Jiayi Ye, Yanbo Wang, Yue Huang, Dongping Chen, Qihui Zhang, Nuno Moniz, Tian Gao, Werner Geyer, Chao Huang, Pin-Yu Chen, Nitesh V Chawla, Xiangliang Zhang
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.02736v2

摘要

大型语言模型 (LLM) 作为评判者已被广泛应用于各种基准测试的评估方法中,并作为监督奖励在模型训练中发挥作用。然而,尽管它们在许多领域表现出色,但潜在问题尚未得到充分探索,这削弱了它们的可靠性和实用范围。因此,我们识别了 12 种关键的潜在偏差,并提出了一种新的自动化偏差量化框架 CALM,该框架通过使用自动化和原则引导的修改系统地量化和分析 LLM 作为评判者中的每种偏差类型。我们的实验涵盖了多个流行的语言模型,结果表明,虽然先进的模型在整体性能上取得了可喜的成果,但在某些特定任务中仍然存在显著的偏差。实证结果表明,LLM 作为评判者的可靠性仍有提升空间。此外,我们还讨论了这些偏差的显性和隐性影响,并对 LLM 作为评判者的可靠应用提出了一些建议。我们的工作强调了利益相关者需要解决这些问题,并提醒用户在使用 LLM 作为评判者时要谨慎。