LLM2D

摘要

选择一个最能模拟人工标注者的自动指标通常并非易事，因为“最能模拟”没有明确的定义。需要一个元指标来比较人工判断和自动指标得分，而指标排名取决于元指标的选择。我们提出了软成对精度 (SPA)，这是一种新的元指标，它建立在成对精度 (PA) 的基础上，但将人工判断和指标得分的统计显著性纳入其中。我们表明，SPA 在评估中使用系统/段数的变化方面比 PA 更稳定。我们还表明，PA 只能对指标分配一小部分不同的输出值，这会导致许多指标被人工分配完全相同的 PA 分数。我们证明 SPA 解决了这个问题。最后，我们表明，SPA 比 PA 更具区分性，可以生成指标之间更具统计显著性的比较。SPA 被选为 2024 年 WMT 指标共享任务的官方系统级指标。