摘要
arXiv:2407.08649v2 宣告类型: 替换交叉
摘要:在将机器学习模型部署到生产环境中后,其预测性能需要进行监控。理想情况下,这种监控可以通过将模型的预测与真实标签进行比较来实现。为了做到这一点,真实标签必须在推理之后相对迅速地可用。然而,在许多情况下,真实标签只能在重大延迟之后才可用,最糟糕的情况下则完全不可用。在这种情况下,直接监控模型的预测性能是不可能的。
最近,已经开发出了一些在没有真实标签的情况下估计模型预测性能的新型方法。许多这些方法利用了模型的信心或其它的不确定性估计,并且将这些方法与一个简单的基线方法——平均信心(AC)方法——进行了实验性比较,而AC方法是通过给定一组预测的信心分数的平均值来估计模型的准确性。然而,到目前为止,AC方法的理论性质尚未被充分探索。在本文中,我们试图通过回顾AC方法来填补这一空白,并证明在某些一般假设下,它是具有许多期望性质的无偏且一致的模型准确性估计器。我们还通过实证将这种基线估计器与其他更复杂估计器进行了比较,并展示出在许多情况下,AC方法能够战胜其他估计方法,尽管不同估计方法的相对质量强烈依赖于具体的应用场景。