LLM2D

摘要

作为一种有望解决人工评估可扩展性挑战的方案，将大型语言模型 (LLM) 作为评判者的范式正在迅速成为评估大型语言模型 (LLM) 的一种方法。然而，关于这种范式的优缺点以及它可能存在的潜在偏差，仍然存在许多悬而未决的问题。在本文中，我们对各种充当评判者的 LLM 的性能进行了全面研究，重点关注人类一致性很高的干净场景。我们调查了 13 种不同模型大小和系列的评判模型，对 9 种不同的“应试者模型”（基础模型和指令微调模型）的答案进行评判，发现只有最佳（也是最大）模型才能与人类实现合理的一致性。然而，它们仍然远远落后于人与人之间的一致性，它们分配的评分可能仍然与人类分配的评分相差高达 5 分。相反，就对 9 个应试者模型的排名而言，即使是较小的模型，甚至词法指标也可以提供合理的信号。通过错误分析和其他研究，我们发现了评判模型的弱点，例如它们对提示复杂性和长度的敏感性，以及倾向于宽容。即使在如此简单的设置中，最好的评判者与人类的差异也表明，在更复杂的环境中使用评判者时，谨慎行事可能是明智的。最后，我们的研究重新发现了使用超出简单百分比一致性的对齐指标的重要性，表明具有高百分比一致性的评判者仍然可能分配截然不同的评分。