摘要
arXiv:2504.04528v1 宣告类型: cross
摘要:机器学习支持的决策,例如下达测试指令或确定预防性拘留,通常基于概率预测进行二元分类。对于此类预测的评估框架通常会考虑优先考虑独立决策指标(例如准确率)还是前K指标(例如Precision@K),以及是关注固定阈值还是阈值无关的度量标准(例如AUC-ROC)。我们强调,长期由决策理论家倡导的结果主义视角,应该自然地倾向于使用混合阈值支持独立决策的评估方法,例如布里尔评分和逻辑损失。然而,我们的实证分析揭示,在ICML、FAccT和CHIL等主要会议上,评估中倾向于优先使用前K指标或固定阈值。为解决这一问题,我们利用这一决策论框架将评估指标映射到其最佳应用场景,并提供了一个Python包briertools来促进布里尔评分的更广泛应用。在此过程中,我们还发现了新的理论联系,包括布里尔评分和决策曲线分析之间的和解,这澄清并回应了由(Assel等人,2017)提出的一项长期对适当评分规则临床效用的批评。