摘要
我们探索了构建一个无需真实数据的评估模型的可行性和潜力,用于评估由Segment Anything Model(SAM)及其变体生成的医学图像分割的质量。该评估模型通过分析输入图像及其对应的分割预测之间的一致性和连贯性来估计分割质量评分。基于前人的研究,我们将训练该模型的任务框架为一个回归问题,采用Dice评分(以及可选的其他指标)和均方误差来计算训练损失。模型训练使用了大量公开的医学图像数据集,以及来自SAM及其变体的分割预测。我们将此模型命名为EvanySeg(Evaluation of Any Segmentation in Medical Images)。我们对基于卷积的模型(例如ResNet)和基于变压器的模型(例如ViT)的探索表明,ViT在该任务中表现更佳。EvanySeg可以用于多种任务,包括:(1)通过检测低百分位的分割质量评分来识别分割不良的样本;(2)通过对测试样本的质量评分进行平均来在没有真实数据的情况下对分割模型进行基准测试;(3)在人机协作中通过在评分空间内应用阈值来提醒人工专家注意质量差的分割预测;(4)在测试时当有多个分割模型可用时,通过选择具有最高质量评分的预测来为每个测试样本选择最佳分割预测。模型和代码将在https://github.com/ahjolsenbics/EvanySeg上提供。