摘要
自动生成模型评估的有效性通常通过与使用相关性指标的人工评估进行比较来衡量。然而,诸如克里彭多夫的 $\alpha$ 和兰道夫的 $\kappa$ 等指标最初是为了衡量人工标注的可靠性而设计的,它们对人类行为和标注过程做出了假设。在本文中,我们展示了 *依赖单个聚合相关性分数* 如何掩盖人类行为和自动评估方法(包括 LLM-as-a-Judge)之间的基本差异。具体来说,我们证明了当具有变异或不确定性的人工标签样本比例(在人工评估期间收集)相对较高时,机器标签(由自动评估方法生成)可能表面上看起来与人工多数标签具有相似的或更好的相关性,相比于人与人 (HH) 之间的相关性。这可能会产生自动评估足够准确以近似人工多数标签的误导性印象。然而,随着具有始终一致人工标签的样本比例增加,机器标签与人工多数标签之间的相关性下降,低于 HH 相关性。基于这些发现,我们首先提出根据人工标签不确定性对结果进行分层,以提供对自动评估性能更稳健的分析。其次,认识到不确定性和变异是基于感知的人工评估(例如涉及态度或偏好的评估)所固有的,我们针对此类场景引入了一个新的指标 - *感知的 binned 杰森-香农散度*,以更好地衡量自动评估的有效性。第三,我们介绍了可视化技术 - *感知图表*,以比较自动评估的优缺点,并适当地将相关性指标进行背景化。