LLM2D

摘要

arXiv:2504.04528v1 宣告类型: cross 摘要：机器学习支持的决策，例如下达测试指令或确定预防性拘留，通常基于概率预测进行二元分类。对于此类预测的评估框架通常会考虑优先考虑独立决策指标（例如准确率）还是前K指标（例如Precision@K），以及是关注固定阈值还是阈值无关的度量标准（例如AUC-ROC）。我们强调，长期由决策理论家倡导的结果主义视角，应该自然地倾向于使用混合阈值支持独立决策的评估方法，例如布里尔评分和逻辑损失。然而，我们的实证分析揭示，在ICML、FAccT和CHIL等主要会议上，评估中倾向于优先使用前K指标或固定阈值。为解决这一问题，我们利用这一决策论框架将评估指标映射到其最佳应用场景，并提供了一个Python包briertools来促进布里尔评分的更广泛应用。在此过程中，我们还发现了新的理论联系，包括布里尔评分和决策曲线分析之间的和解，这澄清并回应了由（Assel等人，2017）提出的一项长期对适当评分规则临床效用的批评。