LLM2D

摘要

利用机器学习 (ML) 通过医学影像分析进行癌症分期在各个医学学科中获得了极大的关注。结合创新的联邦学习 (FL) 框架，ML 技术可以进一步克服与患者数据暴露相关的隐私问题。鉴于患者记录中经常存在多种数据模式，在多模态学习框架中利用 FL 对癌症分期具有相当大的前景。然而，现有的多模态 FL 工作通常假设所有数据收集机构都能访问所有数据模式。这种过于简化的做法忽略了那些只能访问系统中部分数据模式的机构。在这项工作中，我们引入了一种新颖的 FL 架构，该架构不仅能够适应数据样本的异构性，还能适应机构之间数据模式的固有异构性/不均匀性。我们阐明了在我们的 FL 系统中不同数据模式之间观察到的收敛速度差异所带来的挑战。随后，我们提出了一种解决方案，通过设计一种针对多模态 FL 的分布式梯度混合和邻近感知客户端加权策略来应对这些挑战。为了证明我们方法的优越性，我们使用癌症基因组图谱计划 (TCGA) 数据湖进行了实验，考虑了不同的癌症类型和三种数据模式：mRNA 序列、组织病理学图像数据和临床信息。我们的结果进一步揭示了机构之间基于类别与基于类型的异构性对模型性能的影响和严重程度，这拓宽了对多模态 FL 文献中数据异构性概念的视角。