摘要
医学影像正在引领医疗保健的人工智能转型。性能报告是确定哪些方法应该转化为临床实践的关键。通常,广泛的结论只是从平均性能值中推断出来。在本文中,我们认为这种常见的做法通常是一种误导性的简化,因为它忽略了性能的变异性。我们的贡献有三方面。(1) 分析了 2023 年发表的所有 MICCAI 分割论文 (n = 221),我们首先观察到超过 50% 的论文根本没有评估性能变异性。此外,只有一篇 (0.5%) 论文报告了模型性能的置信区间 (CI)。(2) 为了解决报告瓶颈,我们证明了分割论文中未报告的标准差 (SD) 可以通过平均 Dice 相似系数 (DSC) 的二阶多项式函数来近似。基于来自 56 个先前的 MICCAI 挑战的外部验证数据,我们证明了这种近似可以利用出版物中提供的信息准确地重建方法的 CI。(3) 最后,我们重建了 MICCAI 2023 分割论文的平均 DSC 周围的 95% CI。中位 CI 宽度为 0.03,是排名第一和排名第二方法之间中位性能差距的三倍。对于超过 60% 的论文,排名第二的方法的平均性能在排名第一的方法的 CI 内。我们得出结论,当前的出版物通常没有提供足够的证据来支持哪些模型有可能转化为临床实践。