摘要
arXiv:2504.08584v1 宣布类型: 创新交叉
摘要:可靠的医疗图像分析人工智能(AI)模型往往依赖于大规模和多样化的带标签数据集。联邦学习(FL)提供了去中心化和保护隐私的训练方法,但在高度非相互独立和非同分布(non-IID)的环境中表现不佳,即具有代表性的数据更多的机构可能会经历性能下降。此外,现有大规模的FL研究主要限于成人数据集,忽略了儿科数据所带来的独特挑战,这增加了额外的非IID变异性。为了解决这些限制,我们分析了来自多个国家多个机构的n=398,523份成人胸部X光片和n=9,125份儿科图像,并借助通用自监督图像表示进行迁移学习来分类肺炎和无异常情况。使用最新的视觉变换器,我们发现FL仅在较小的成人数据集(P<0.001)中提高了性能,在较大数据集(P<0.064)和儿科病例(P=0.242)中则降低了性能。然而,将FL与自监督权重结合使用显著提升了儿科病例(P=0.031)和大多数成人数据集(P<0.008)的结果,尤其是在最大的数据集(P=0.052)中没有例外。这些发现强调了通用的自监督图像表示在临床FL应用中解决非IID挑战的潜力,并突显了其在提高患者结果和推进儿科护理方面的前景,尤其是在数据稀缺性和变异性仍然普遍存在的情况下。