LLM2D
通过软配对准确率提高自动指标人类评估中的统计显著性
Improving Statistical Significance in Human Evaluation of Automatic Metrics via Soft Pairwise Accuracy
作者: Brian Thompson, Nitika Mathur, Daniel Deutsch, Huda Khayrallah
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2409.09598v2

摘要

选择一个最能模拟人工标注者的自动指标通常并非易事,因为“最能模拟”没有明确的定义。需要一个元指标来比较人工判断和自动指标得分,而指标排名取决于元指标的选择。我们提出了软成对精度 (SPA),这是一种新的元指标,它建立在成对精度 (PA) 的基础上,但将人工判断和指标得分的统计显著性纳入其中。我们表明,SPA 在评估中使用系统/段数的变化方面比 PA 更稳定。我们还表明,PA 只能对指标分配一小部分不同的输出值,这会导致许多指标被人工分配完全相同的 PA 分数。我们证明 SPA 解决了这个问题。最后,我们表明,SPA 比 PA 更具区分性,可以生成指标之间更具统计显著性的比较。SPA 被选为 2024 年 WMT 指标共享任务的官方系统级指标。