LLM2D

摘要

大型语言模型 (LLM) 作为评判者已被广泛应用于各种基准测试的评估方法中，并作为监督奖励在模型训练中发挥作用。然而，尽管它们在许多领域表现出色，但潜在问题尚未得到充分探索，这削弱了它们的可靠性和实用范围。因此，我们识别了 12 种关键的潜在偏差，并提出了一种新的自动化偏差量化框架 CALM，该框架通过使用自动化和原则引导的修改系统地量化和分析 LLM 作为评判者中的每种偏差类型。我们的实验涵盖了多个流行的语言模型，结果表明，虽然先进的模型在整体性能上取得了可喜的成果，但在某些特定任务中仍然存在显著的偏差。实证结果表明，LLM 作为评判者的可靠性仍有提升空间。此外，我们还讨论了这些偏差的显性和隐性影响，并对 LLM 作为评判者的可靠应用提出了一些建议。我们的工作强调了利益相关者需要解决这些问题，并提醒用户在使用 LLM 作为评判者时要谨慎。