LLM2D

摘要

arXiv:2504.12351v1 Announce Type: cross 摘要：数字病理学中的基础模型利用大量数据集来学习复杂病理学图像的有用紧凑特征表示。然而，关于数据集大小与性能之间的相关性的驱动因素缺乏透明度，这提出了一个问题，即增加更多数据是否总是为了提高性能而必要。在本研究中，我们提出了一种基于原型的扩散模型，以大规模生成高保真合成病理学数据，从而实现大规模自我监督学习，同时减少对真实患者样本的依赖，同时保持下游性能。利用采样过程中组织学原型的指导，我们的方法确保生成数据具有生物学和诊断上具有意义的变异。我们证明，尽管使用的数据量仅为大型真实世界数据集中的60倍至760倍，但在我们的合成数据集上训练的自监督特征仍能实现具有竞争力的性能。值得注意的是，使用我们合成数据训练的模型在多个评估指标和任务上显示出了统计上可比或更好的性能，甚至与在数量级更大的数据集上训练的模型相比也是如此。结合合成数据和真实数据的混合方法进一步提升了性能，在多个评估中取得了最佳结果。这些发现强调了生成式AI在数字病理学训练数据创建中的潜力，显著减少了对大量临床数据集的依赖，并突显了我们方法的高效性。