摘要
理解性能评估指标的质量对于确保模型输出与人类偏好一致至关重要。然而,目前尚不清楚每个指标在多大程度上能够捕捉到这些偏好的不同方面,因为指标通常在一个特定领域表现出色,但在所有维度上并非如此。为了解决这个问题,必须系统地将指标校准到人类偏好的特定方面,以满足每个方面的独特特征。我们介绍了 MetaMetrics,这是一种经过校准的元指标,旨在以监督的方式评估跨不同模态的生成任务。MetaMetrics 优化了现有指标的组合,以增强它们与人类偏好的匹配度。我们的指标在语言和视觉下游任务中都展现出灵活性和有效性,在各种多语言和多领域场景中显示出显著优势。MetaMetrics 与人类偏好高度一致,并且具有高度可扩展性和易于集成到任何应用程序中。这使得 MetaMetrics 成为改进生成任务评估的强大工具,确保指标能够更具代表性地反映人类在不同背景下的判断。