摘要
大型生成模型的自动评估有效性通常通过使用相关性指标将其与人工评估进行比较来衡量。然而,诸如克里彭多夫 α 和兰道夫 κ 等指标最初是为了衡量人工标注的可靠性而设计的,它们对人类行为和标注过程做出了假设。本文展示了*依赖单一聚合相关性分数*是如何掩盖人类行为和自动评估方法(包括以大型语言模型为评判标准的方法)之间根本差异的。具体来说,我们证明了当人工标注(在人工评估期间收集)中存在差异或不确定性的样本比例相对较高时,机器标注(由自动评估方法生成)与人工多数标注相比,表面上可能具有相似或更好的相关性。这可能会造成自动评估近似于人工多数标注的错觉。然而,随着人工标注一致的样本比例增加,机器标注与人工标注之间的相关性将远低于人工间(HH)相关性。基于这些发现,我们首先提出按人工标注不确定性对结果进行分层,以提供对自动评估性能更稳健的分析。其次,认识到不确定性和差异是基于感知的人工评估(例如涉及态度或偏好的评估)的固有特性,我们针对此类场景引入了一种新的指标——*感知的区间詹森-香农散度*,以更好地衡量自动评估的有效性。第三,我们提出了可视化技术——*感知图*,以比较自动评估的优缺点,并适当地将相关性度量置于情境中。