摘要
机器翻译 (MT) 评估指标自动评估翻译质量。最近,研究人员将 MT 指标应用于各种新的用例,例如数据过滤和翻译重新排序。然而,大多数 MT 指标将评估结果作为难以解释的标量分数返回,这给做出明智的设计选择带来了挑战。此外,MT 指标的能力历来是通过与人工判断的相关性来评估的,尽管这种方法有效,但它未能提供对指标性能的直观洞察,特别是在新的指标用例方面。为了解决这些问题,我们引入了一个可解释的 MT 指标评估框架。在这个框架内,我们评估了指标在两个场景中的表现,这两个场景作为数据过滤和翻译重新排序用例的代理。此外,通过使用精确率、召回率和 F 分数来衡量 MT 指标的性能,我们比与人工判断的相关性提供了更清晰的洞察力。最后,我们对按照直接评估+标量质量指标 (DA+SQM) 指南手动整理数据的可靠性表示担忧,报告了与多维质量指标 (MQM) 注释的明显低一致性。