LLM2D

摘要

机器翻译 (MT) 评估指标自动评估翻译质量。最近，研究人员将 MT 指标应用于各种新的用例，例如数据过滤和翻译重新排序。然而，大多数 MT 指标将评估结果作为难以解释的标量分数返回，这给做出明智的设计选择带来了挑战。此外，MT 指标的能力历来是通过与人工判断的相关性来评估的，尽管这种方法有效，但它未能提供对指标性能的直观洞察，特别是在新的指标用例方面。为了解决这些问题，我们引入了一个可解释的 MT 指标评估框架。在这个框架内，我们评估了指标在两个场景中的表现，这两个场景作为数据过滤和翻译重新排序用例的代理。此外，通过使用精确率、召回率和 F 分数来衡量 MT 指标的性能，我们比与人工判断的相关性提供了更清晰的洞察力。最后，我们对按照直接评估+标量质量指标 (DA+SQM) 指南手动整理数据的可靠性表示担忧，报告了与多维质量指标 (MQM) 注释的明显低一致性。