摘要
机器学习 (ML) 和人工智能 (AI) 系统严重依赖人工标注数据进行训练和评估。在这种情况下,一个主要挑战是标注错误的出现,因为它们的影响会降低模型性能。本文提出了一种预测错误模型,该模型经过训练,可以检测三种工业规模的 ML 应用(音乐流媒体、视频流媒体和移动应用程序)中搜索相关性标注任务中的潜在错误。利用来自大型搜索相关性标注项目的真实世界数据,我们证明可以以适度的模型性能 (AUC=0.65-0.75) 预测错误,并且模型性能在不同应用之间具有良好的泛化性(即,全局、与任务无关的模型与特定任务模型的性能相当)。与以往的研究相比,以往的研究往往侧重于从特定任务特征预测标注标签,而我们的模型经过训练,可以直接从任务特征和从标注过程得出的行为特征的组合中预测错误,以实现高度的泛化性。我们在审计的背景下展示了该模型的实用性,其中优先处理预测错误概率高的任务会大大增加纠正的标注错误的数量(例如,音乐流媒体应用程序的效率提高 40%)。这些结果表明,行为错误检测模型可以显著提高数据标注过程的效率和质量。我们的发现揭示了数据标注过程中有效错误管理的关键见解,从而为更广泛的人机交互式 ML 领域做出贡献。