LLM2D

摘要

大型语言模型 (LLM) 作为评判者已广泛应用于各种基准测试的评估方法中，并作为模型训练中的监督奖励。然而，尽管它们在许多领域表现出色，但其潜在问题却未得到充分探索，这削弱了它们的可靠性和适用范围。因此，我们确定了 12 种关键的潜在偏差，并提出了一种新的自动化偏差量化框架——CALM，该框架通过使用自动化的、以原则为指导的修改来系统地量化和分析 LLM 作为评判者中的每种偏差类型。我们的实验涵盖了多个流行的语言模型，结果表明，虽然先进的模型在整体性能上取得了可喜的成绩，但在某些特定任务中仍然存在显著的偏差。实证结果表明，LLM 作为评判者的可靠性还有提升空间。此外，我们还讨论了这些偏差的显性和隐性影响，并对 LLM 作为评判者的可靠应用提出了一些建议。我们的工作强调了利益相关者需要解决这些问题，并提醒用户在 LLM 作为评判者的应用中谨慎行事。