摘要
大型语言模型 (LLM) 作为评判者已广泛应用于各种基准测试的评估方法中,并作为模型训练中的监督奖励。然而,尽管它们在许多领域表现出色,但其潜在问题却未得到充分探索,这削弱了它们的可靠性和适用范围。因此,我们确定了 12 种关键的潜在偏差,并提出了一种新的自动化偏差量化框架——CALM,该框架通过使用自动化的、以原则为指导的修改来系统地量化和分析 LLM 作为评判者中的每种偏差类型。我们的实验涵盖了多个流行的语言模型,结果表明,虽然先进的模型在整体性能上取得了可喜的成绩,但在某些特定任务中仍然存在显著的偏差。实证结果表明,LLM 作为评判者的可靠性还有提升空间。此外,我们还讨论了这些偏差的显性和隐性影响,并对 LLM 作为评判者的可靠应用提出了一些建议。我们的工作强调了利益相关者需要解决这些问题,并提醒用户在 LLM 作为评判者的应用中谨慎行事。