LLM2D

摘要

arXiv:2503.23819v1 宣布类型: cross 摘要：基于医学影像的深度学习诊断AI系统开始提供与人类专家相似的性能。然而，这些数据需求量大且复杂的系统本质上是黑盒结构，因此在像医疗保健这类高风险应用中难以被采纳。由于缺乏透明度的问题，在这些大型自监督基础模型中表现得尤为突出，这些模型在数百万数据点上进行训练，以在一系列下游任务中提供稳健的一般泛化能力，但它们生成的嵌入通过一个不可解释的过程实现，因此对于临床应用来说不易于信任。为解决这一紧迫的问题，我们使用符合性分析来量化基于视觉变换器（ViT）的基础模型在不同患者人口统计学（性别、年龄和种族）方面对皮肤病变分类任务的预测不确定性，同时使用多个公共基准数据集。这种方法的一个重要优势是，符合性分析独立于方法，并不仅在整体人口层面提供覆盖率保证，还为每个个体提供不确定性评分。我们还在模型训练过程中使用了一种模型无关的动力学F1评分采样方法，这有助于稳定类别不平衡，并研究了这种偏差缓解步骤对不确定性量化（UQ）的影响。因此，我们展示了如何将这种方法作为公平性指标来评估基础模型（Google DermFoundation）的功能嵌入的稳健性，从而促进临床AI的信任度和公平性。