LLM2D
基于原型引导的扩散模型在数字病理学中的应用:在minimal临床数据下实现基础模型性能
Prototype-Guided Diffusion for Digital Pathology: Achieving Foundation Model Performance with Minimal Clinical Data
作者: Ekaterina Redekop, Mara Pleasure, Vedrana Ivezic, Zichen Wang, Kimberly Flores, Anthony Sisk, William Speier, Corey Arnold
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.12351v1

摘要

arXiv:2504.12351v1 Announce Type: cross 摘要:数字病理学中的基础模型利用大量数据集来学习复杂病理学图像的有用紧凑特征表示。然而,关于数据集大小与性能之间的相关性的驱动因素缺乏透明度,这提出了一个问题,即增加更多数据是否总是为了提高性能而必要。在本研究中,我们提出了一种基于原型的扩散模型,以大规模生成高保真合成病理学数据,从而实现大规模自我监督学习,同时减少对真实患者样本的依赖,同时保持下游性能。利用采样过程中组织学原型的指导,我们的方法确保生成数据具有生物学和诊断上具有意义的变异。我们证明,尽管使用的数据量仅为大型真实世界数据集中的60倍至760倍,但在我们的合成数据集上训练的自监督特征仍能实现具有竞争力的性能。值得注意的是,使用我们合成数据训练的模型在多个评估指标和任务上显示出了统计上可比或更好的性能,甚至与在数量级更大的数据集上训练的模型相比也是如此。结合合成数据和真实数据的混合方法进一步提升了性能,在多个评估中取得了最佳结果。这些发现强调了生成式AI在数字病理学训练数据创建中的潜力,显著减少了对大量临床数据集的依赖,并突显了我们方法的高效性。